|
现代图书情报技术 2015
基于iipc开源软件拓展构建国际重要科研机构web存档系统Abstract: ?[目的]构建国际重要科研机构web存档系统。[方法]基于iipc开源软件拓展采集存档框架,在采集端采用三层扩展策略,在采集客户端增加自动上传及报告等管理功能,开发warc文件内容解析模块,利用solr进行索引。[结果]在采集端实现三层扩展,通过增加采集客户端功能提高存档流程自动化程度,通过增加的warc文件内容解析功能抽取更多信息,实现索引及检索服务的扩展。[局限]没有使用大规模采集存档进行检验。[结论]扩展后的采集存档框架初步具备分布式、可扩展、全自动化的特点。
|