hadoop – map reduce任务和静态变量

我刚刚开始研究一些hadoop / hbase MapReduce作业(使用cloudera),我有以下问题:

比方说,我们有一个带有main和static viariable的java类。 该类定义了与Mapper和Reducer任务相对应的内部类。 在执行作业之前,主要初始化静态变量。 在Mapper类中读取此变量。 然后在集群上使用’hadoop jar’启动该类。

我的问题:我没有看到其他节点上的Map和Reduce任务如何看到该静态变量。 是否有任何“hadoop magic”允许节点共享jvm或静态变量? 这怎么可能工作? 我必须在这样做的一个类上工作,我无法弄清楚在非单一节点集群中这是怎么回事。 谢谢

在分布式Hadoop集群中,每个Map / Reduce任务都在其自己的独立JVM中运行。 因此,无法在不同JVM(甚至不同节点)上运行的不同类实例之间共享静态变量。

但是,如果要在任务之间共享一些不可变数据,可以使用Configuration类:

// driver code Configuration config = Configuration.create(); config.setLong("foo.bar.somelong",1337); ... // mapper code public class SomeMapper ... { private long someLong = 0; public void setup(Context context) { Configuration config = context.getConfiguration(); someLong = config.getLong("foo.bar.somelong"); } }