全部 标题 作者 关键词 摘要
Keywords: web文本,文本提取,文本语料库
Full-Text Cite this paper Add to My Lib
?为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的html标记分析,其通用性较强。实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求。
Full-Text
Contact Us
service@oalib.com
QQ:3279437679
WhatsApp +8615387084133