全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

The Research of Document Predisposition Technology in Search Engines
搜索引擎的文档预处理技术研究

Keywords: 搜索引擎,文档预处理,数据结构,网页标引,计算机网络,信息检索

Full-Text   Cite this paper   Add to My Lib

Abstract:

搜索引擎的Robots(自动采集器)对WWW站点进行搜索,并将搜索到WWW页面信息存入搜索引擎的临时数据库,然后再对页面信息进行整理,形成规范的页面索引,存入索引数据库,供用户查询。设计搜索引擎的第一步就是对输入的各项进行规格化处理,使之标准化。在建立索引文件之前,文档里的信息要进行处理,例如文档标准、索引词抽取,这个过程称为项目规格化(Item normalization)。项目规格化分三步进行:建立可搜索的数据库结构,禁用词表使用和抽取词干。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133