全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

Internet中的新词识别

DOI: 10.13190/jbupt.200801.26.067, PP. 26-29

Keywords: 新词识别,关联规则,时间函数,分词碎片

Full-Text   Cite this paper   Add to My Lib

Abstract:

针对Internet中新词不断出现且难以被及时有效识别的问题,在分析其出现特征的基础上,利用单字之间的同现词频信息以及它们出现的时间规律确定候选新词字串.利用候选字串中各字符相邻、有序、频繁出现的特点,提出采用改进的关联规则挖掘算法进行新词的识别.实验表明,该方法不仅可以根据词串的出现规律区分出新词和常用的单字组合,改善传统方法因固定n元模式匹配而导致的僵化现象,而且解决了“长词中包含短词”的问题,提高了新词识别的准确率.

References

[1]  商务印书馆辞书研究中心. 新华新词语词典[M]. 北京: 商务印书馆, 2003.
[2]  崔世起, 刘群, 孟遥, 等. 基于大规模语料库的新词检测[J]. 计算机研究与发展, 2006, 43(5): 927-932. Cui Shiqi, Liu Qun, Meng Yao, et al. New word detection based on large-scale corpus[J]. Journal of Computer Research and Development, 2006, 43(5): 927-932.
[3]  Li Hongqiao, Huang Changning, Gao Jianfeng, et al. The use of SVM for Chinese new word identification//Processing of 2004 International Joint Conference on Natural Language. China:, 2004: 723-732.
[4]  邹纲, 刘洋, 刘群, 等. 面向Internet的中文新词语检测[J]. 中文信息学报, 2004, 18(6): 1-9. Zou Gang, Liu Yang, Liu Qun, et al. Internet- oriented Chinese new words detection[J]. Journal of Chinese Information Processing, 2004, 18(6): 1-9.
[5]  Rakesh A, Tomasz I, Arun S. Mining association rules between sets of items in large database//Proceedings of the ACM SIGMOD conference on Management of Data. Washington DC: ACM Press, 1993: 207-216.
[6]  段云峰, 宋俊德, 李剑威, 等. 基于数量的关联规则挖掘[J]. 北京邮电大学学报, 2002, 25(4): 56-60. Duan Yunfeng, Song Junde, Li Jianwei, et al. The association rule mining based on item numbers[J]. Journal of Beijing University of Posts and Telecommunications, 2002, 25(4): 56-60.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133