全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

运用语义集索引法实现英文文本分类

DOI: 10.13190/jbupt.200602.18.lül, PP. 18-21

Keywords: 文本分类,语义集索引,隐含语义索引

Full-Text   Cite this paper   Add to My Lib

Abstract:

克服当前文本分类法中基于词形匹配带来的局限性,基于WordNet语义词典和隐含语义索引(LSI)模型,提出了基于语义集索引的英文文本分类方法.该方法在分类初期首先利用WordNet构建语义词典库,利用单词的语义集代替单词作为文本特征向量的特征项;然后利用LSI模型进一步深入挖掘语义集概念间的深层联系,将语言知识和概念索引有效地融合到文本向量空间的表示中.针对NaiveBayes及简单向量距离文本分类法的实验结果显示,2种文本分类法的分类准确率均随着语义分析的深入逐步提高,充分表明了语义挖掘对文本分类的重要性和必要性。

References

[1]  Miller G A, Beckwith R, Fellbaum C, et al. Introduction to WordNet: an on-line lexical database
[2]  [J] International Journal of Lexicography, 1990, 3(4): 235-312.
[3]  庞剑锋, 卜东波, 白硕. 基于向量空间模型的文本自动分类系统的研究与实现
[4]  [J] 计算机应用研究, 2001, 9(9): 23-26. Pang Jianfeng, Bu Dongbo, Bai Shuo. Research and implementation of text categorization system based on VSM
[5]  [J] Application Research of Computers, 2001, 9(9): 23-26.
[6]  吕琳, 周世斌, 刘玉树. 一种高性能英文词性标注器的设计与实现
[7]  [J] 北京理工大学学报, 2005, 25(10): 876-879. Lü Lin, Zhou Shibin, Liu Yushu. Design and realization of a high-performance part of speech tagger for the English language
[8]  [J] Transactions of Beijing Institute of Technology, 2005, 25(10): 876-879.
[9]  Dumais S T, Fumas G W, Landauer T K, et al. Using latent semantic analysis to improve information retrieval //Proceedings of CHI 88: Conference on Human Factors in Computing. New York: ACM, 1988: 281-285.
[10]  孙健, 王伟, 钟义信. 基于K-最近距离的自动文本分类的研究
[11]  [J] 北京邮电大学学报, 2001, 24(1): 42-46. Sun Jian, Wang Wei, Zhong Yixin. Automatic text categorization based on K-nearest neighbor
[12]  [J] Journal of Beijing University of Posts and Telecommunications, 2001, 24(1): 42-46.
[13]  王波涛, 吴伟陵, 吴善培. 一种改进的神经网络训练算法
[14]  [J] 北京邮电大学学报, 2004, 27(4): 87-91. Wang Botao, Wu Weiling, Wu Shanpei. An improved training algorithm for artificial neural networks
[15]  [J] Journal of Beijing University of Posts and Telecommunications, 2004, 27(4): 87-91.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133