%0 Journal Article %T 面向高效越南语分词的有监督集成学习框架 %A 刘伍颖 %A 王琳 %J 中山大学学报(自然科学版) %D 2018 %X 摘要 在很多亚洲语言书面文本中,词与词之间没有明显的分隔符,因此这些文本的自动分词任务依然具有挑战性.相应的分词算法能够被广泛用于各种自然语言处理应用当中.本文针对越南语分词问题,提出了一套完整的有监督集成学习框架,并且实现了一种新的基于有监督集成学习的分词算法.在二元音节频率索引数据结构支持下,我们实现的分词算法能够综合多个基本分词器的优势,形成一个集成分词器.公开数据集上的越南语分词实验结果表明我们提出的框架在统计、计算和表示上具有良好的表现,算法最终能够达到最优的分词效果 %K 有监督集成学习框架 %K 越南语分词 %K 多基本分词器 %K 二元音节频率索引 %U http://xwxt.sict.ac.cn/CN/abstract/abstract4473.shtml