使用JDBC迭代大表的最快方法

我正在尝试创建一个java程序来清理和合并我的表中的行。 该表很大,大约500k行,我目前的解决方案运行速度非常慢。 我想要做的第一件事就是获取一个表示我表中所有行的对象的内存数组。 这是我正在做的事情:

  • 一次选择1000行的增量
  • 使用JDBC在以下SQL查询上获取结果集SELECT * FROM TABLE WHERE ID> 0 AND ID <1000
  • 将结果数据添加到内存数组中
  • 继续查询最多500,000,增量为1000,每次添加结果。

这已经很久了。 实际上它甚至没有超过从1000到2000的第二个增量。查询需要永远完成(尽管当我直接通过MySQL浏览器运行相同的东西时它速度相当快)。 我已经有一段时间了,因为我直接使用了JDBC。 有更快的替代方案吗?

首先,你确定你需要整个表在内存中吗? 也许您应该考虑(如果可能)选择要更新/合并/等的行。 如果你真的必须拥有整个表,你可以考虑使用可滚动的ResultSet。 你可以像这样创建它。

// make sure autocommit is off (postgres) con.setAutoCommit(false); Statement stmt = con.createStatement( ResultSet.TYPE_SCROLL_INSENSITIVE, //or ResultSet.TYPE_FORWARD_ONLY ResultSet.CONCUR_READ_ONLY); ResultSet srs = stmt.executeQuery("select * from ..."); 

它允许您使用“绝对”和“相对”方法移动到您想要的任何行。

虽然它可能不是最佳的,但您的解决方案似乎应该适用于一次性数据库清理例程。 运行这样的查询并获得结果不应该花那么长时间(我假设因为它是一个几秒钟就可以了)。 可能的问题 –

  • 你的网络(或至少你与mysql的连接)很慢? 您可以尝试在mysql框上本地运行该进程,如果是这样,或者更好地连接。

  • 表格结构中有什么东西导致它吗? 每行下拉10k的数据? 200个字段? 计算基于非索引行获取的id值? 您可以尝试找到更加数据库友好的方式来提取数据(例如,只需要您需要的列,具有db聚合值等等)

如果你没有完成第二次增量,那么确实是错误的 – 有效与否,你应该没有任何问题在运行的JVM上将2000或20,000行转储到内存中。 也许你是冗余存储数据还是效率极低?

帮助我的一件事是Statement.setFetchSize(Integer.MIN_VALUE) 。 我从杰森的博客中得到了这个想法。 这将执行时间缩短了一半以上。 消耗的内存急剧下降(因为一次只读取一行。)

但是,这个技巧对PreparedStatement不起作用。