如何在YARN Spark作业中设置环境变量？

我试图通过使用带有newAPIHadoopRDD的AccumuloInputFormat从Apache Spark作业（用Java编写）访问Accumulo 1.6 。为了做到这一点，我必须通过调用setZooKeeperInstance方法告诉AccumuloInputFormat在哪里找到ZooKeeper。此方法采用ClientConfiguration对象，该对象指定各种相关属性。

我正在通过调用静态loadDefault方法创建我的ClientConfiguration对象。此方法应该在client.conf文件的各个位置查看以从中加载其默认值。应该看的其中一个地方是$ACCUMULO_CONF_DIR/client.conf 。

因此，我试图设置ACCUMULO_CONF_DIR环境变量，使其在Spark运行作业时可见（作为参考，我试图在yarn-cluster部署模式下运行）。我还没有找到成功的方法。

到目前为止，我已经尝试过：

在setExecutorEnv("ACCUMULO_CONF_DIR", "/etc/accumulo/conf")调用setExecutorEnv("ACCUMULO_CONF_DIR", "/etc/accumulo/conf")
在spark-env.sh导出spark-env.sh
在spark-defaults.conf设置spark.executorEnv.ACCUMULO_CONF_DIR

他们都没有工作。当我在调用setZooKeeperInstance之前打印环境时，不会出现ACCUMULO_CONF_DIR 。

如果它是相关的，我正在使用CDH5版本的所有东西。

这是我正在尝试做的一个例子（为简洁而省略了导入和exception处理）：

 public class MySparkJob { public static void main(String[] args) { SparkConf sparkConf = new SparkConf(); sparkConf.setAppName("MySparkJob"); sparkConf.setExecutorEnv("ACcUMULO_CONF_DIR", "/etc/accumulo/conf"); JavaSparkContext sc = new JavaSparkContext(sparkConf); Job accumuloJob = Job.getInstance(sc.hadoopConfiguration()); // Foreach loop to print environment, shows no ACCUMULO_CONF_DIR ClientConfiguration accumuloConfiguration = ClientConfiguration.loadDefault(); AccumuloInputFormat.setZooKeeperInstance(accumuloJob, accumuloConfiguration); // Other calls to AccumuloInputFormat static functions to configure it properly. JavaPairRDD accumuloRDD = sc.newAPIHadoopRDD(accumuloJob.getConfiguration(), AccumuloInputFormat.class, Key.class, Value.class); } }

所以我在写这个问题时找到了答案（抱歉，信誉求职者）。问题是CDH5使用Spark 1.0.0，而我正在通过YARN运行该作业。显然，YARN模式不关注执行程序环境，而是使用环境变量SPARK_YARN_USER_ENV来控制其环境。因此，确保SPARK_YARN_USER_ENV包含ACCUMULO_CONF_DIR=/etc/accumulo/conf ，并使ACCUMULO_CONF_DIR在问题源示例中指定点的环境中可见。

独立模式和YARN模式工作方式的差异导致了SPARK-1680 ，在Spark 1.1.0中报告已修复。

如何在YARN Spark作业中设置环境变量？

我应该将变量保留为瞬态变量吗？

如何通过Sparklyr在本地模式下运行Spark时配置驱动程序内存？

强制分区存储在特定执行程序中

Spark与Cassandra输入/输出

此语言级别不支持Lambda表达式

Spark – Java UDF返回多列

本地类不兼容exception：从IDE运行spark standalone时

如何使Spark Streaming计算unit testing中文件中的单词？

Spark流式传输DStream RDD以获取文件名

如何在Java中的Apache Spark中将DataFrame转换为Dataset？