|
- 2018
基于 Kafka、Disruptor 技术对传统 ETL 的改进DOI: 10.3969/ j. issn.1673-629X.2018.11.006 Keywords: 大数据, ETL, Kafka, 数据仓库, Disruptor Abstract: ETL 系统是构建和维护数据仓库的基本构件,对异构数据源中的业务数据进行抽取、清洗、转换可通过 ETL 工具将其装载到数据仓库中。 但是,当数据量上升到一定程度时,传统的 ETL 在数据处理速度以及数据的准确性方面会大大降低,并且不能满足数据源多种多样的变化需求。 针对如何同时具有高效的数据处理能力和通用的数据源访问能力的问题,提出一种对传统 ETL 进行改进的方案。 利用 Kafka 和 Disruptor 并发框架相结合,从数据源中抽取数据放入 Kafka 集群,结合 Disruptor 高吞吐和低延迟的特点,实现了数据高效的传输,使数据可以在不同数据源之间进行清洗和转换,同时在数据传输准确性方面有了极大的改进,保证了数据传输的一致性
|