全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

一种通用论坛信息提取方法

Keywords: 信息提取,网址结构,内容关键度,聚类分析

Full-Text   Cite this paper   Add to My Lib

Abstract:

摘要 网络论坛的分类和正文提取是网络数据挖掘的一项重要技术.传统的网页分类方法没有考虑到论坛网址的结构特性,以内容特征为根据,易受噪声影响,效率较低,难以满足通用性的需求.传统的正文提取方法以文本密度和布局结构为依据,忽视了论坛内容的语义信息,难以从多样化的论坛中有效提取正文.本文提出基于网址结构的聚类方法(Universal Resource Locators′ Structure Clustering,USC)以及基于词汇关键程度的关键词打分筛选方法(Keyword Scoring Filter,KSF).两种方法仅需要对数据集中的少量样本进行解析,提取出通用规则,便可满足大规模提取的需要.实验验证,在相同测试集下,USC方法的F值较传统分类方法高18.99%,KSF方法的准确率较传统正文提取方法高18.46%,适合大规模论坛提取作业

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133