|
现代图书情报技术 2015
drupal数据采集在构建特色数字资源中的实践Abstract: ?【目的】解决特色数据库建设过程中数据抓取困难、多类型数字资源难以整合等问题。【应用背景】特色资源信息生命短暂,陕西省已建特色库平台差异较大,支持rss接口有限,数据格式复杂。【方法】利用drupalfeeds,xpathparser,crawls,imagegrabber等web数据采集技术,结合数据清洗、剔除手段,实现web数据采集的系统化和专业化。【结果】对feedsrss采集,html/xml网页分析自动采集,特别是数据采集中需要针对不同特色资源修改规则及采集网页中流媒体等问题进行探讨。【结论】丰富陕西省特色数字资源平台的数据来源,部分解决数据采集困难、数据格式不规范、数据来源途径有限的问题。
|