%0 Journal Article %T The Research on a Large-Scale Text Clustering Algorithm based on Clustering Features
基于聚类特性的大规模文本聚类算法研究 %A 唐春生 %A 金以慧 %J 计算机科学 %D 2002 %I %X 一、引言随着Internet的飞速发展,人们能从网上得到更多的信息,但过多的信息常常会导致信息迷失。将信息进行分类是帮助信息利用的有效方法,聚类则是文本类别划分时常用的技术,其特点是不需训练集即可从给定的文本集合中找到聚类划分。已有的聚类方法大多是针对小规模数据的,当计算资源和时间受到限制时,原有的大部分方法已不能满足要求,需要能够处理大规模数据的算法。标准k均值方法是比较基本也是很常用的一种聚类方法,其计算复杂度与模式数量成线性关系,这使其具有处理大规模数据的可能。k均值方法本质上是一种选代的方法,当数据不能一次全部读入内存时,则需和磁盘进行多次数据交换,并且这种交换相应于迭代次数要反复多次,这无疑需要花费大量的I/O时间。 %K 信息处理 %K 聚类特性 %K 大规模文本聚类算法 %K 计算机 %U http://www.alljournals.cn/get_abstract_url.aspx?pcid=5B3AB970F71A803DEACDC0559115BFCF0A068CD97DD29835&cid=8240383F08CE46C8B05036380D75B607&jid=64A12D73428C8B8DBFB978D04DFEB3C1&aid=174C98254123FDFE&yid=C3ACC247184A22C1&vid=771469D9D58C34FF&iid=9CF7A0430CBB2DFD&sid=FC0714F8D2EB605D&eid=23CCDDCD68FFCC2F&journal_id=1002-137X&journal_name=计算机科学&referenced_num=3&reference_num=9