全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...
软件学报  2010 

一种web评论自动抽取方法

, PP. 3220-3236

Keywords: web用户评论,结构化数据记录,web数据抽取

Full-Text   Cite this paper   Add to My Lib

Abstract:

web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generatedcontent)不受页面模板的限制,这就给web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致性严重影响了评论记录在dom树和视觉上的相似性;其次,评论内容在dom树中是一棵复杂的子树,而且彼此之间在dom树中的结构相差巨大.为了解决这两个问题,提出了一种完整的解决方案,使用多种技术来实现对用户评论内容的抽取.抽取过程分为两个步骤,基于深度加权的树相似性算法评论记录首先从网页中抽取出来,然后通过比较dom树中节点的一致性,将纯粹的用户评论内容从评论记录中抽取出来.在多个新闻网站和论坛网站上的实验结果表明,该方法可以达到较高的准确度和效率.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133