|
长安大学学报(自然科学版) 2014
交通信息基础数据元中文名称短语相似度算法, PP. 117-122 Keywords: 交通工程,交通信息数据元,中文短语,相似度算法 Abstract: 交通信息基础数据元与用户数据项的中文名称短语的对应是数据元建立、标准符合性检测等工作的基础。为了提高名称对应的准确率,提出了一种利用数据元名称组成的特定结构进行数据项名称与数据元名称进行对应的方法,并给出了相似度的计算算法。该算法将用户数据项名称短语的省略情况按照中文语言习惯进行总结,采用数学中干扰修正的思想,分别按照语素和词素对相似度值进行计算,并利用相同语素的个数对相似度进行修正,综合得出词语的相似度。最后利用交通运输部实际工程数据进行了验证。研究结果表明本算法较文献[1]中算法的“有改善”率提升了91.20%,“明显改善”率提升了9.62%;较文献[2]中的“有改善”率提升了88.40%,“明显改善”率提升了66.80%。
|