%0 Journal Article %T 基于大间隔方法的汉语组块分析 %A 周俊生? %A 戴新宇? %A 陈家骏? %A 曲维光? %J 软件学报 %P 870-877 %D 2009 %X 汉语组块分析是中文信息处理领域中一项重要的子任务.在一种新的结构化svms(supportvectormachines)模型的基础上,提出一种基于大间隔方法的汉语组块分析方法.首先,针对汉语组块分析问题设计了序列化标注模型;然后根据大间隔思想给出判别式的序列化标注函数的优化目标,并应用割平面算法实现对特征参数的近似优化训练.针对组块识别问题设计了一种改进的f1损失函数,使得f1损失值能够依据每个句子的实际长度进行相应的调整,从而能够引入更有效的约束不等式.通过在滨州中文树库ctb4数据集上的实验数据显示,基于改进的f1损失函数所产生的识别结果优于hamming损失函数,各种类型组块识别的总的f1值为91.61%,优于crfs(conditionalrandomfields)和svms方法. %K 汉语组块分析 %K 大间隔 %K 判别式学习 %K 损失函数 %U http://www.jos.org.cn/ch/reader/view_abstract.aspx?file_no=3233&flag=1