OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

现代图书情报技术 2015

drupal数据采集在构建特色数字资源中的实践

李丹,闫晓弟,魏青山

Keywords: 源数据,数据采集,drupal

Full-Text Cite this paper Add to My Lib

Abstract:

？【目的】解决特色数据库建设过程中数据抓取困难、多类型数字资源难以整合等问题。【应用背景】特色资源信息生命短暂,陕西省已建特色库平台差异较大,支持rss接口有限,数据格式复杂。【方法】利用drupalfeeds,xpathparser,crawls,imagegrabber等web数据采集技术,结合数据清洗、剔除手段,实现web数据采集的系统化和专业化。【结果】对feedsrss采集,html/xml网页分析自动采集,特别是数据采集中需要针对不同特色资源修改规则及采集网页中流媒体等问题进行探讨。【结论】丰富陕西省特色数字资源平台的数据来源,部分解决数据采集困难、数据格式不规范、数据来源途径有限的问题。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133