|
软件学报 2006
基于最长顺序频繁词组的web文献检索结构, PP. 2096-2105 Keywords: 最长顺序频繁词组,扩展的特征层次树,特征抽取,文本挖掘,信息检索 Abstract: 目前,大多数web文献不能满足不同层次科研人员的查询要求.分析了这一问题产生的原因,提出建立辅助的web文献检索结构以帮助用户更准确地获取所需文献的思想.基于该思想,设计了通过挖掘最长顺序频繁词组抽取文献特征的算法,提出了能够表现特征之间、文献之间、特征与文献之间关系的扩展的特征层次树结构及其构建方法.实验表明,挖掘最长顺序频繁词组在抽取文献特征方面比常用的tfidf具有更大的优势.理论分析说明,扩展的特征层次树具有压缩的存储结构、词组与文献关系的表现方式和更好的辅助检索功能.
|