%0 Journal Article %T 一种通用论坛信息提取方法 %A 付园斌 %A 刘锐 %A 王红 %A 谭文韬 %A  %J 中山大学学报(自然科学版) %D 2018 %X 摘要 网络论坛的分类和正文提取是网络数据挖掘的一项重要技术.传统的网页分类方法没有考虑到论坛网址的结构特性,以内容特征为根据,易受噪声影响,效率较低,难以满足通用性的需求.传统的正文提取方法以文本密度和布局结构为依据,忽视了论坛内容的语义信息,难以从多样化的论坛中有效提取正文.本文提出基于网址结构的聚类方法(Universal Resource Locators′ Structure Clustering,USC)以及基于词汇关键程度的关键词打分筛选方法(Keyword Scoring Filter,KSF).两种方法仅需要对数据集中的少量样本进行解析,提取出通用规则,便可满足大规模提取的需要.实验验证,在相同测试集下,USC方法的F值较传统分类方法高18.99%,KSF方法的准确率较传统正文提取方法高18.46%,适合大规模论坛提取作业 %K 信息提取 %K 网址结构 %K 内容关键度 %K 聚类分析 %U http://xwxt.sict.ac.cn/CN/abstract/abstract4506.shtml