在mapper中逐行读取HDFS中的文本文件

以下是Mappers的代码，从HDFS读取文本文件对吗？如果是：

如果不同节点中的两个映射器几乎同时尝试打开文件会发生什么？
是不是需要关闭InputStreamReader ？如果是这样，如何在不关闭文件系统的情况下执行此操作？

我的代码是：

 Path pt=new Path("hdfs://pathTofile"); FileSystem fs = FileSystem.get(context.getConfiguration()); BufferedReader br=new BufferedReader(new InputStreamReader(fs.open(pt))); String line; line=br.readLine(); while (line != null){ System.out.println(line);

这将是有效的，有一些修改 – 我假设您粘贴的代码被截断：

 Path pt=new Path("hdfs://pathTofile"); FileSystem fs = FileSystem.get(context.getConfiguration()); BufferedReader br=new BufferedReader(new InputStreamReader(fs.open(pt))); try { String line; line=br.readLine(); while (line != null){ System.out.println(line); // be sure to read the next line otherwise you'll get an infinite loop line = br.readLine(); } } finally { // you should close out the BufferedReader br.close(); }

您可以使用多个映射器读取同一个文件，但是使用分布式缓存更有意义（不仅减少了承载文件块的数据节点的负载，而且效率更高）如果你的工作任务数量大于任务节点数

在mapper中逐行读取HDFS中的文本文件

即使在命令行上告知-D mapred.reduce.tasks = 0之后，hadoop也会减少任务运行

测试java HBase连接

HDFS：使用Java / Scala API移动多个文件

Apache pig脚本，错误1070：Java UDF无法解析导入

错误：java.io.IOException：错误的值类：class org.apache.hadoop.io.Text不是类Myclass

“hadoop namenode -format”返回java.net.UnknownHostException

Datanode守护程序未在Hadoop 2.5.0上运行

在Pig Latin中为每个组写一个文件

Hadoop中默认的散列分区器将两个不同的键转到同一个reducer？

可以迭代的ArrayList元素发生变化