全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

一种web文本的自动提取方法

Keywords: 网页,文本,格式控制符,分离

Full-Text   Cite this paper   Add to My Lib

Abstract:

?文本是web上最主要的知识源,但现有的采用html表示的web页面把文本内容和格式控制符混杂在一起,阻碍了知识获取的进程.文中提出了一种面向web网页的分离文本与格式控制符的方法,通过对html文件的解析,过滤所有的格式控制符,得到一个页面内容的纯文本文件.该方法具有普适性,与文本的语言和领域无关,并可用于web知识获取的预处理.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133