|
计算机科学 2013
基于分类的term重要性识别方法Keywords: 分类,依存句法分析,查询词权重,查询分析,term重要性,搜索引擎,信息检索 Abstract: 在传统的搜索引擎和信息检索中,用户query中的term-weight通常是以一种上下文无关的方式得到的。现有的大多数信息检索技术都使用词袋方法,例如布尔模型、向量空间模型和概率模型等,这些方法均没有考虑query中term之间的相关性。为了能够充分利用query中的信息来提高term-weight的准确度,提出了一种有监督的机器学习方法来学习用户query中的term-weight。该方法基于分类的方法,并引入了句法分析作为分类的一项重要的特征来训练模型。考虑用户query中term之间的关系后,既避免了由query到单个term的信息丢失,又增加了短文本的特征,同时使分类器实现软输出,能够给term的重要程度一个更为准确的量化值。
|