用Java处理数百万个数据库记录

我需要编写一个批处理作业，该作业从数据库表中提取行并基于某些条件，写入其他表或使用特定值更新此行。我们使用spring和jdbc来获取结果集，并使用计划每周运行的独立java程序迭代并处理记录。我知道这不是正确的方法，但我们必须将其作为临时解决方案。随着记录增长到数百万，我们最终会出现内存exception，所以我知道这不是最好的方法。

你们中的任何人都可以推荐一种处理这种情况的最佳方法吗？

使用线程并为每个线程获取1000条记录并并行处理它们？

（要么）

使用任何其他批处理机制来执行此操作（我知道有弹簧批但从未使用过此）

（要么）

还有其他想法吗？

批处理作业从数据库表中提取行并基于某些条件，写入其他表或使用特定值更新此行。

这听起来像你应该在数据库中做的事情。例如，要获取特定行并根据特定条件更新它，SQL具有UPDATE ... WHERE ...语句。要写入另一个表，可以使用INSERT ... SELECT ...

这些可能会变得相当复杂，但我建议尽一切力量在数据库中执行此操作，因为将数据拉出来过滤它非常慢并且无法使用关系数据库。

注意：确保首先在非生产系统上进行实验，并实施您需要的任何限制，这样您就不会在生产困难时锁定生产表。

您已经知道，您不能将一百万行带入内存并对其进行操作。

你必须以某种方式对它们进行分块。

为什么要把他们带到中间层？我会考虑编写存储过程并对数据库服务器上的数据进行操作。把它带到中间层似乎并没有给你买任何东西。让您的批处理作业启动存储过程并在数据库服务器中就地进行计算。

这实际上取决于您处理记录的内容和方式。

但一般来说，您不应该立即将它们全部加载到内存中，而是使用合理大小的块进行处理。

同意Brendan Long的意见。但是，我可能仍会尝试在存储过程中选择“数百万”数据集的子集。否则，您将破坏数据库的事务日志。只需确保您定期提交插入或更新。

如果您不想在Stored proc中执行此操作，只需让spring批量加载您希望以某个固定块大小操作的记录的键（使用游标/分页阅读器），但获取存储的proc以执行实际工作。这样，您可以最大限度地减少传递到中间层的数据，同时仍然可以获得spring批处理和db在操作数据方面的性能。

用Java处理数百万个数据库记录

易失性读取是否发生在易失性写入之前？

Spring Integration Http Outbound Gateway Header Mapper

如何在eclipse上安装maven

从.NET调用Java API – 最好的方法

如何计算二叉搜索树的深度

使用Apache HttpClient如何在请求和响应上设置TIMEOUT

Java等待JFrame完成

如何通过JDBC使用包含问号“？”的PostgreSQL JSON（B）运算符

查询方法JPQL的validation失败

避免在anyElement上重复使用名称空间定义