Tag: etl

Java ETL过程

我有一个新的挑战是从Oracle数据库加载~100M行并将它们插入远程MySQL数据库服务器。 我把问题分成两部分: 服务器端REST服务器,负责将数据加载到MySQL服务器; 负责加载Oracle数据源的客户端Java应用程序。 在Java方面,我使用普通的JDBC来加载分页内容并通过网络将其传输到服务器。 这种方法效果很好,但是由于我使用Oracle的ROWNUM ….. WHERE ROWNUM> x和ROWNUM <y进行分页,因此代码繁琐而且不具有很大的可扩展性。 我现在尝试了Hibernate的StatelessSession,我的实体通过Annotations映射。 代码更具可读性和清晰性,但性能更差。 我听说过ETL工具和SpringBatch,但我对它们并不了解。 还有其他方法可以解决这个问题吗? 提前致谢。 UPDATE 感谢您提供宝贵的建议。 我选择使用SpringBatch从Oracle数据库加载数据,因为环境非常紧张,我无法访问Oracle的工具集。 SpringBatch是真实的。 对于数据写入步骤,我选择使用MySQL的LOAD DATA INFILE编写大量的记录。 REST服务位于中间,因为出于安全原因它们彼此隐藏。

开源ETL框架

我被要求对两个ETL框架进行原型设计。 要求如下: 开源 适用于Linux 保持 可以在Web浏览器上查看日志(很高兴) 用Perl,Python,Ruby或Java编写 原始文件可以是任何东西(excel,csv,html页面等)。目标数据库是MySQL。 不要只是删除名称,请根据您的经验说明优缺点。 谢谢!