同时读取文件(首选java)

我有一个需要几个小时才能处理的大文件。 所以我正在考虑尝试估计块并且并行读取块。

是否可以在单个文件上并发读取? 我已经查看了RandomAccessFile以及nio.FileChannel但基于其他post我不确定这种方法是否有效。

这里最重要的问题是你的案例中的瓶颈什么

如果瓶颈是您的磁盘IO ,那么您在软件部分可以做的事情就不多了。 并行化计算只会使事情变得更糟,因为同时从不同部分读取文件会降低磁盘性能。

如果瓶颈是处理能力 ,并且您有多个CPU核心,那么您可以利用启动多个线程来处理文件的不同部分。 您可以安全地创建多个InputStreamReader以并行读取文件的不同部分(只要您没有超过操作系统对打开文件数量的限制)。 您可以将工作分成任务并并行运行,如下例所示:

 import java.io.*; import java.util.*; import java.util.concurrent.*; public class Split { private File file; public Split(File file) { this.file = file; } // Processes the given portion of the file. // Called simultaneously from several threads. // Use your custom return type as needed, I used String just to give an example. public String processPart(long start, long end) throws Exception { InputStream is = new FileInputStream(file); is.skip(start); // do a computation using the input stream, // checking that we don't read more than (end-start) bytes System.out.println("Computing the part from " + start + " to " + end); Thread.sleep(1000); System.out.println("Finished the part from " + start + " to " + end); is.close(); return "Some result"; } // Creates a task that will process the given portion of the file, // when executed. public Callable processPartTask(final long start, final long end) { return new Callable() { public String call() throws Exception { return processPart(start, end); } }; } // Splits the computation into chunks of the given size, // creates appropriate tasks and runs them using a // given number of threads. public void processAll(int noOfThreads, int chunkSize) throws Exception { int count = (int)((file.length() + chunkSize - 1) / chunkSize); java.util.List> tasks = new ArrayList>(count); for(int i = 0; i < count; i++) tasks.add(processPartTask(i * chunkSize, Math.min(file.length(), (i+1) * chunkSize))); ExecutorService es = Executors.newFixedThreadPool(noOfThreads); java.util.List> results = es.invokeAll(tasks); es.shutdown(); // use the results for something for(Future result : results) System.out.println(result.get()); } public static void main(String argv[]) throws Exception { Split s = new Split(new File(argv[0])); s.processAll(8, 1000); } } 

如果您有多个独立的spindal,您可以并行读取大文件。 例如,如果您有一个Raid 0 + 1剥离文件系统,您可以通过触发对同一文件的多个并发读取来查看性能改进。

但是,如果你有一个组合文件系统,如Raid 5或6或普通的单个磁盘。 按顺序读取文件很可能是从该磁盘读取的最快方法。 注意:操作系统非常智能,可以在它看到您正在顺序读取时预读取读取,因此使用其他线程来执行此操作不太可能有所帮助。

即使用多个线程不会让你的磁盘更快。

如果您想更快地从磁盘读取,请使用更快的驱动器。 典型的SATA HDD可以读取大约60 MB /秒并执行120 IOPS。 典型的SATA SSD驱动器可以以大约400 MB / s的速度读取并执行80,000 IOPS,而典型的PCI SSD可以以900 MB / s的速度读取并执行230,000 IOPS。

您可以并行处理,但是您的硬盘驱动器一次只能读取一个数据。 如果您使用单个线程读入文件,则可以使用多个线程处理数据。

如果您正在从硬盘驱动器读取文件,那么获取数据的最快方法是从头到尾读取文件,即不同时读取。

现在,如果这是需要时间的处理,那么可能会因为多个线程同时处理不同的数据块而受益,但这与您阅读文件的方式无关。