大数据环境下,ETL负责将分散的、异构数据源中的数据如关系数据、平面文件数据等集成到数据仓库或数据集市的关键步骤,是后期联机分析处理、数据挖掘的基础环节。本课题以开源的ETL软件Kettle为研究目标,探讨Kettle的ETL体系架构以及关系数据库背景下的数据集成方案,并通过并构建原型系统,仿真验证方案的可行性。
1. 全面了解课题的相关研究背景、现状,数据集成的相关方法以及ETL产品;
2. 对数据集成的关键技术和各种算法等进行深入分析和研究;
3. 利用面向对象的分析和建模方法构建原型系统,进行仿真实现。