%0 Journal Article %T The Research of Document Predisposition Technology in Search Engines
搜索引擎的文档预处理技术研究 %A 陶跃华 %A 赵波 %A 杨秀国 %J 计算机科学 %D 2002 %I %X 搜索引擎的Robots(自动采集器)对WWW站点进行搜索,并将搜索到WWW页面信息存入搜索引擎的临时数据库,然后再对页面信息进行整理,形成规范的页面索引,存入索引数据库,供用户查询。设计搜索引擎的第一步就是对输入的各项进行规格化处理,使之标准化。在建立索引文件之前,文档里的信息要进行处理,例如文档标准、索引词抽取,这个过程称为项目规格化(Item normalization)。项目规格化分三步进行:建立可搜索的数据库结构,禁用词表使用和抽取词干。 %K 搜索引擎 %K 文档预处理 %K 数据结构 %K 网页标引 %K 计算机网络 %K 信息检索 %U http://www.alljournals.cn/get_abstract_url.aspx?pcid=5B3AB970F71A803DEACDC0559115BFCF0A068CD97DD29835&cid=8240383F08CE46C8B05036380D75B607&jid=64A12D73428C8B8DBFB978D04DFEB3C1&aid=AE058C37A304D1D9&yid=C3ACC247184A22C1&vid=771469D9D58C34FF&iid=DF92D298D3FF1E6E&sid=480C51B1F0CE0AB6&eid=4BB057F167CF3A60&journal_id=1002-137X&journal_name=计算机科学&referenced_num=2&reference_num=3