%0 Journal Article %T The Feature Acquiring Algorithm on The Web Text
基于模糊近似度的Web文本过滤模型 %A 刘明吉 %A 饶一梅 %J 计算机科学 %D 2001 %I %X 从1991年诞生以来,WWW(World Wide Web)得到了迅猛的发展,它已经成为拥有约3亿用户、400万站点的巨大分布式信息空间、它包含了技术资料、商业信息、新闻报道、娱乐信息等多种类别和形式的信息,资源分布很分散,且没有统一的管理和结构。如何快速、准确地从浩瀚的信息资源中提取用户所需要的信息已经成为一个新的研究课题。WWW上最多的就是文本信息,因此Web信息处理的核心就是如何处理这些Web文档。数据挖掘和知识发现(Data Mining and Knowl-edge Discovery,DMKD)可以帮助人们从大量原始数据中挖掘出隐含的、有用的尚未发现的信息和知识,有效地解决信息丰富知识贫乏问题。因此,基于Web文本信息的挖掘作为数据挖掘的一个新主题,引起了人们的极大兴趣。Web文本信息的挖掘就是在大量训练样本的基础上,得到文本数据间的内在特征,并以此为依据在网络资源中进行有目的的信息提取。在本文中,我们首先介绍了Web文本信息的向量空间表示模型(VSM),并在此模型的基础上提出了一 %K WWW %K Web %K 文本过滤模型 %K 模糊近似度 %K Internet %K 数据库 %U http://www.alljournals.cn/get_abstract_url.aspx?pcid=5B3AB970F71A803DEACDC0559115BFCF0A068CD97DD29835&cid=8240383F08CE46C8B05036380D75B607&jid=64A12D73428C8B8DBFB978D04DFEB3C1&aid=8F57DD2ABC15944A&yid=14E7EF987E4155E6&vid=D3E34374A0D77D7F&iid=59906B3B2830C2C5&sid=E514EE58E0E50ECF&eid=9FFCC7AF50CAEBF7&journal_id=1002-137X&journal_name=计算机科学&referenced_num=1&reference_num=14