%0 Journal Article
%T 一种web文本的自动提取方法
%A 印国成
%A 孙茂圣
%J 江苏科技大学学报(自然科学版)
%D 2010
%X ？文本是web上最主要的知识源,但现有的采用html表示的web页面把文本内容和格式控制符混杂在一起,阻碍了知识获取的进程.文中提出了一种面向web网页的分离文本与格式控制符的方法,通过对html文件的解析,过滤所有的格式控制符,得到一个页面内容的纯文本文件.该方法具有普适性,与文本的语言和领域无关,并可用于web知识获取的预处理.
%K 网页
%K 文本
%K 格式控制符
%K 分离
%U http://journal.just.edu.cn/jweb_zkb/CN/abstract/abstract811.shtml