|
计算机应用 2010
基于统计主题模型的多粒度web文档标注Keywords: 统计主题模型,本体,语义标注,概念,信息检索 Abstract: ?针对已有web文档语义标注技术在标注完整性方面的缺陷,将潜在狄里克雷分配(lda)模型用于对web文档添加语义标注。考虑到web文档具有明显的领域特征,在传统的lda模型中嵌入领域信息,提出domain-enablelda模型,提高了标注结果的完整性并避免了对词汇主题的强制分配;同时在文档隐含主题和文档所在领域本体概念间建立关联,利用本体概念表达的语义对隐含主题进行准确的解释,使文档的语义清晰化,为文档检索提供有效帮助。根据lda模型可为每个词汇分配隐含主题的特征,提出多粒度语义标注的概念。在20news-group和webkb数据集上的实验证明了domain-enablelda模型的有效性,并指出对文档进行多粒度标注有助于有效处理不同类型查询。
|