%0 Journal Article %T 基于上下文关系的文本分类特征描述方法 %A 何中市 %A 刘里 %J 计算机科学 %D 2007 %I %X 文本特征描述是文本分类的基础,其目标是用一定的可计算的特征来表示文本,在分类的时候用这些特征来区分文本。在向量空间模型(Vector Space Model,简记为VSM)中采用“词袋”法来处理文本,即文本被看成是由相互无关的词语构成的集合,不考虑词语之间的关系,但是这种处理方法不是很合理,因为文本的结构是完整的,孤立地对待单个词语将丢失文本的内容信息。在实际语言环境中,词语有一定的上下文“作用域”,“作用域”中的词语对表达同一主题具有一定的共性。本文提出了一种基于上下文关系的文本特征描述方法,包括特征选择方法CBFS及权重计算方法CBFW。该方法是在提取一个初始特征词语集合的基础上,通过用互信息(MI)来衡量词语在上下文中的依赖度,选取对主题贡献大的词语加入特征集合,同时调整不同贡献的特征词语的权重,从而更加合理地表示文本。 %K 特征描述 %K 文本分类 %K 向量空间模型 %K 权重计算 %U http://www.alljournals.cn/get_abstract_url.aspx?pcid=5B3AB970F71A803DEACDC0559115BFCF0A068CD97DD29835&cid=8240383F08CE46C8B05036380D75B607&jid=64A12D73428C8B8DBFB978D04DFEB3C1&aid=E3ADD7D0CE95A7A85F9F310546EC3A7A&yid=A732AF04DDA03BB3&vid=339D79302DF62549&iid=94C357A881DFC066&sid=DD74772618543076&eid=50BBDFAC8381694B&journal_id=1002-137X&journal_name=计算机科学&referenced_num=0&reference_num=7