Tag: cdh accumulo

如何在YARN Spark作业中设置环境变量？: 我试图通过使用带有newAPIHadoopRDD的AccumuloInputFormat从Apache Spark作业（用Java编写）访问Accumulo 1.6 。为了做到这一点，我必须通过调用setZooKeeperInstance方法告诉AccumuloInputFormat在哪里找到ZooKeeper。此方法采用ClientConfiguration对象，该对象指定各种相关属性。我正在通过调用静态loadDefault方法创建我的ClientConfiguration对象。此方法应该在client.conf文件的各个位置查看以从中加载其默认值。应该看的其中一个地方是$ACCUMULO_CONF_DIR/client.conf 。因此，我试图设置ACCUMULO_CONF_DIR环境变量，使其在Spark运行作业时可见（作为参考，我试图在yarn-cluster部署模式下运行）。我还没有找到成功的方法。到目前为止，我已经尝试过：在setExecutorEnv(“ACCUMULO_CONF_DIR”, “/etc/accumulo/conf”)调用setExecutorEnv(“ACCUMULO_CONF_DIR”, “/etc/accumulo/conf”) 在spark-env.sh导出spark-env.sh 在spark-defaults.conf设置spark.executorEnv.ACCUMULO_CONF_DIR 他们都没有工作。当我在调用setZooKeeperInstance之前打印环境时，不会出现ACCUMULO_CONF_DIR 。如果它是相关的，我正在使用CDH5版本的所有东西。这是我正在尝试做的一个例子（为简洁而省略了导入和exception处理）： public class MySparkJob { public static void main(String[] args) { SparkConf sparkConf = new SparkConf(); sparkConf.setAppName(“MySparkJob”); sparkConf.setExecutorEnv(“ACcUMULO_CONF_DIR”, “/etc/accumulo/conf”); JavaSparkContext sc = new JavaSparkContext(sparkConf); Job accumuloJob = Job.getInstance(sc.hadoopConfiguration()); // Foreach loop to print […]

Interesting Posts

类OBJECT中的默认构造函数是做什么的？

Struts中的控制器

SAML Http请求拦截与Spring Boot

mousemoved事件中的Javafx滑块值

Spring Data：覆盖保存方法

在java中如何获取给定目录中的文件

Java ServiceExecutor终止条件

Java：System.out.println（）背后的原因是什么？

HttpClient与锚点链接出错400错误

静态块初始化

如何将多个参数传递给javareflection中的方法

接受两种类型之一的generics类

Guice：无法在Request范围中注入带注释的类型

Hibernate教程

即使正确发送SOAP请求，Axis2也始终接收空参数？