基于新型主题信息量化方法的web主题信息提取研究*
Keywords: 网页主题信息,信息抽取,信息块,语义信息,ib-dom树
Abstract:
?针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合dom规范和分块思想,在dom树的基础上提出ib-dom树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。
Full-Text