基于主题爬虫的本体非分类关系学习框架
Keywords: 本体学习,非分类关系,主题爬虫,分割聚类算法,相关度,基于关键词的生物主题爬虫设计*
Abstract:
?提出一种借助主题爬虫自动从返回的相关网页进行本体非分类关系学习的框架与方法。针对利用互联网进行本体学习的特点,所用到的主要方法是词频、共现统计和分割聚类算法kmeans,并没有采用复杂的语法结构分析和半指导聚类算法如em、birch和som,因此自动化程度和效率较高。学习结果将用于指导主题爬虫进行网页相关性的判断。这种非分类关系的学习质量将由主题爬虫在实际应用中的表现来客观评价。
Full-Text