%0 Journal Article
%T 基于大间隔方法的汉语组块分析
%A 周俊生？
%A 戴新宇？
%A 陈家骏？
%A 曲维光？
%J 软件学报
%P 870-877
%D 2009
%X 汉语组块分析是中文信息处理领域中一项重要的子任务.在一种新的结构化svms(supportvectormachines)模型的基础上,提出一种基于大间隔方法的汉语组块分析方法.首先,针对汉语组块分析问题设计了序列化标注模型;然后根据大间隔思想给出判别式的序列化标注函数的优化目标,并应用割平面算法实现对特征参数的近似优化训练.针对组块识别问题设计了一种改进的f1损失函数,使得f1损失值能够依据每个句子的实际长度进行相应的调整,从而能够引入更有效的约束不等式.通过在滨州中文树库ctb4数据集上的实验数据显示,基于改进的f1损失函数所产生的识别结果优于hamming损失函数,各种类型组块识别的总的f1值为91.61%,优于crfs(conditionalrandomfields)和svms方法.
%K 汉语组块分析
%K 大间隔
%K 判别式学习
%K 损失函数
%U http://www.jos.org.cn/ch/reader/view_abstract.aspx?file_no=3233&flag=1