|
计算机科学 2012
基于领域特征文本的deepweb分类研究Keywords: 特征文本,领域分类,向量空间模型,deepweb Abstract: deepweb自动分类是建立深网数据集成系统的前提和基础。提出了一种基于领域特征文本的deepweb分类方法。首先借助本体知识对表达同一语义的不同词汇进行了概念抽象,进而给出了领域相关度的定义,并将其作为特征文本选择的量化标准,避免了人为选取的主观性和不确定性;在接口向量模型构建中,考虑了不同特征文本对于分类作用的差异,提出了一种改进的w-"i'fidf权重计算方法;最后采用knn算法对接口向量进行了分类。对比实验证明,利用所提方法选择的特征文本是准确有效的,新的特征文本权重计算方法能显著地提高分类精度,且在knn算法中表现出较好的稳定性。
|