%0 Journal Article %T 一种web文本的自动提取方法 %A 印国成 %A 孙茂圣 %J 江苏科技大学学报(自然科学版) %D 2010 %X ?文本是web上最主要的知识源,但现有的采用html表示的web页面把文本内容和格式控制符混杂在一起,阻碍了知识获取的进程.文中提出了一种面向web网页的分离文本与格式控制符的方法,通过对html文件的解析,过滤所有的格式控制符,得到一个页面内容的纯文本文件.该方法具有普适性,与文本的语言和领域无关,并可用于web知识获取的预处理. %K 网页 %K 文本 %K 格式控制符 %K 分离 %U http://journal.just.edu.cn/jweb_zkb/CN/abstract/abstract811.shtml