%0 Journal Article %T 一种基于spark的论文相似性快速检测方法 %A 卓可秋 %A 童国平 %A 虞为 %J 图书情报工作 %D 2015 %X ?[目的/意义],从大规模已知文本集中检测出与待检测论文的相似文本并计算相似度大小,用于满足在线论文相似性检测秒级响应需求。[方法/过程]采用分治法策略,对已知文本句集进行基于正交基的软聚类预处理,并对软聚类后的每个簇建立倒排索引。接着在快数据处理平台spark上执行相似性检测,采用字符结合词组形式计算出待检测论文与已知文本的相似度大小。[结果/结论]通过200万规模的已知文本集实验结果显示,综合4种类型的待检测论文,所提出的倒排索引结合软聚类算法准确率p为100.0%,召回率r为93.6%,调和平均值f为96.7%。调和平均值f比相似性检测算法lcs高10%左右,比simhash算法高约23%。在检测速度上,对于一篇字数为5000左右的待检测论文,检测时间约为6.5秒,比simhash算法快近300倍,比lcs算法快约4000倍。此外,实验结果还表明基于spark的分布式并行相似性检测算法具有较好的可扩展性。 %K 论文相似性检测 %K spark快数据处理 %K 正交基软聚类 %K 倒排索引 %K 基于分类标注语料库的关键词标引知识自动获取 %U http://124.16.154.130:8080/lis/CN/abstract/abstract19989.shtml