|
软件学报 2009
基于大间隔方法的汉语组块分析, PP. 870-877 Keywords: 汉语组块分析,大间隔,判别式学习,损失函数 Abstract: 汉语组块分析是中文信息处理领域中一项重要的子任务.在一种新的结构化svms(supportvectormachines)模型的基础上,提出一种基于大间隔方法的汉语组块分析方法.首先,针对汉语组块分析问题设计了序列化标注模型;然后根据大间隔思想给出判别式的序列化标注函数的优化目标,并应用割平面算法实现对特征参数的近似优化训练.针对组块识别问题设计了一种改进的f1损失函数,使得f1损失值能够依据每个句子的实际长度进行相应的调整,从而能够引入更有效的约束不等式.通过在滨州中文树库ctb4数据集上的实验数据显示,基于改进的f1损失函数所产生的识别结果优于hamming损失函数,各种类型组块识别的总的f1值为91.61%,优于crfs(conditionalrandomfields)和svms方法.
|