|
控制与决策 2010
一种XML文档结构相似度计算方法, PP. 497-501 Keywords: 结构相似度,位置权重,最长公共子序列,Structure,similarity,Position,weight,Longest,common,subsequence Abstract: 对XML文档树路径模型进行扩展,加入了路径的频率信息.基于此路径–频率模型,提出一种带有位置权重的基于路径的结构相似度计算方法(WLCS),并在此基础上提出基于路径频率的XML文档结构向量化方法.在真实数据集上的实验结果表明,WLCS方法召回率和准确率均高于当前存在的基于路径计算相似度的方法,适合于对来自不同DTD的XML文档的相似度比较.
|