无法在Spark中配置ORC属性

我正在使用Spark 1.6（Cloudera 5.8.2）并尝试以下方法来配置ORC属性。但它不会影响输出。

下面是我试过的代码片段。

DataFrame dataframe = hiveContext.createDataFrame(rowData, schema); dataframe.write().format("orc").options(new HashMap(){ { put("orc.compress","SNAPPY"); put("hive.exec.orc.default.compress","SNAPPY"); put("orc.compress.size","524288"); put("hive.exec.orc.default.buffer.size","524288"); put("hive.exec.orc.compression.strategy", "COMPRESSION"); } }).save("spark_orc_output");

除此之外，我还尝试了在hive-site.xml和hiveContext对象中设置的这些属性。

输出上的hive –orcfiledump确认未应用配置。 Orcfiledump片段如下。

 Compression: ZLIB Compression size: 262144

你在这里犯了两个不同的错误。我不怪你; 我去过那儿…

问题＃1
orc.compress和其余的不是Spark DataFrameWriter选项。它们是Hive配置属性，必须在创建hiveContext对象之前定义…

在发布时可用于Spark的hive-site.xml
或者在您的代码中，通过重新创建SparkContext …

sc.getConf.get("orc.compress","") // depends on Hadoop conf
sc.stop
val scAlt = new org.apache.spark.SparkContext((new org.apache.spark.SparkConf).set("orc.compress","snappy"))
scAlt.getConf.get("orc.compress","") // will now be Snappy
val hiveContextAlt = new org.apache.spark.sql.SQLContext(scAlt)

[编辑]使用Spark 2.x脚本将成为……
spark.sparkContext.getConf.get("orc.compress","") // depends on Hadoop conf
spark.close
val sparkAlt = org.apache.spark.sql.SparkSession.builder().config("orc.compress","snappy").getOrCreate()
sparkAlt.sparkContext.getConf.get("orc.compress","") // will now be Snappy

问题＃2
Spark将自己的SerDe库用于ORC（以及Parquet，JSON，CSV等），因此它不必遵循标准的Hadoop / Hive属性。

Parquet有一些特定于Spark的属性，它们都有很好的文档记录。但同样，必须在创建（或重新创建） hiveContext 之前设置这些属性。

对于ORC和其他格式，您必须使用特定于格式的DataFrameWriter选项; 引用最新的JavaDoc ……

您可以设置以下ORC特定选项来编写ORC文件：
• compression （默认snappy ）：保存到文件时使用的压缩编解码器。这可以是已知的不区分大小写的缩写名称之一（ none ， snappy ， zlib和lzo ）。这将覆盖orc.compress

请注意，默认压缩编解码器已随Spark 2更改; 在此之前它是zlib

因此，您唯一可以设置的是压缩编解码器，使用

 dataframe.write().format("orc").option("compression","snappy").save("wtf")

无法在Spark中配置ORC属性

Apache Spark – 添加两列

无法找到Web UI的资源路径：org / apache / spark / ui / static创建Spark应用程序时

Spark – 使用数据框语法进行HAVING分组？

如何使用Java有效地读取Hadoop（HDFS）文件中的第一行？

此语言级别不支持Lambda表达式

Java中的“Lambdifying”scala函数

解决Apache Spark中的依赖性问题

使用Java从另一个应用程序部署Apache Spark应用程序，这是最佳实践

如何使用spark处理一系列hbase行？

如何下载dse.jar