全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

一种web主题文本通用提取方法

Keywords: web文本,文本提取,文本语料库

Full-Text   Cite this paper   Add to My Lib

Abstract:

?为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的html标记分析,其通用性较强。实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133