全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

中文搜索引擎分块倒排索引存储模式

Keywords: 倒排索引,搜索引擎,全文检索,分块结构,检索效率

Full-Text   Cite this paper   Add to My Lib

Abstract:

?针对开源搜索引擎aspseek中的倒排索引的内部结构和访问模式,抽象出了倒排索引的形式化定义。为解决aspseek倒排索引更新困难和直接采用操作系统文件缓冲访问机制带来的效率问题,以125万张中文农业网页为样本,结合其特点,提出了一种块大小可变的分块倒排索引存储模式和基于clock替代策略的专用缓冲管理机制。实验结果表明在禁用和启用缓冲的情况下,分块访问模式检索效率都优于aspseek。在启用缓冲并使用16万中文词条或5万高频中文词条作为测试集合的条件下,分块存储模式在访问倒排索引100万次后的检索时间趋于常量,即使以全部的827309个词条作为测试集合的条件下,分块存储模式在访问倒排索引200万次后的检索时间趋于收敛。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133