全部 标题 作者 关键词 摘要
Keywords: 网页,文本,格式控制符,分离
Full-Text Cite this paper Add to My Lib
?文本是web上最主要的知识源,但现有的采用html表示的web页面把文本内容和格式控制符混杂在一起,阻碍了知识获取的进程.文中提出了一种面向web网页的分离文本与格式控制符的方法,通过对html文件的解析,过滤所有的格式控制符,得到一个页面内容的纯文本文件.该方法具有普适性,与文本的语言和领域无关,并可用于web知识获取的预处理.
Full-Text
Contact Us
service@oalib.com
QQ:3279437679
WhatsApp +8615387084133