|
软件学报 2010
基于特征选择和最大熵模型的汉语词义消歧, PP. 1287-1295 Keywords: 最大熵模型,分类特征,自动特征选择,汉语词义消歧 Abstract: 词义消歧是自然语言处理中一类典型的分类问题.在分类中,特征的选择至关重要.通常情况下,特征是由人工选择的,这就要求特征选取者对于待分类的问题本身和分类模型的特点有深刻的认识.分析了汉语词义消岐中特征模板对消歧结果的影响,在此基础上提出一套基于最大熵分类模型的自动特征选择方法,包括针对所有歧义词的统一特征模板选择和针对单个歧义词的独立特征模板优化算法.实验结果表明,使用自动选择的特征,不仅简化了特征模板,而且提高了汉语词义消歧的性能.与semeval2007:task#5的最好成绩相比,该方法分别在微平均值microave(micro-averageaccuracy))和宏平均值macroave(macro-averageaccuracy))上提升了3.10%和2.96%.
|