Spark SQL – 如何将DataFrame写入文本文件?
我正在使用Spark SQL
来阅读镶木地板和书写镶木地板文件。
但在某些情况下,我需要将DataFrame
写为文本文件而不是Json或Parquet。
是否支持任何默认方法或我必须将该DataFrame转换为RDD
然后使用saveAsTextFile()
方法?
使用Databricks Spark-CSV,您可以直接保存到CSV文件,然后像这样从CSV文件加载
import org.apache.spark.sql.SQLContext SQLContext sqlContext = new SQLContext(sc); DataFrame df = sqlContext.read() .format("com.databricks.spark.csv") .option("inferSchema", "true") .option("header", "true") .load("cars.csv"); df.select("year", "model").write() .format("com.databricks.spark.csv") .option("header", "true") .option("codec", "org.apache.hadoop.io.compress.GzipCodec") .save("newcars.csv");
df.repartition(1).write.option("header", "true").csv("filename.csv")
- 多节点hadoop集群中的Apache Spark Sql问题
- 如何使用Java在Spark SQL中加入多列以在DataFrame中进行过滤
- 如何使用JAVA在Spark DataFrame上调用UDF?
- Avro Schema引发StructType
- 用于行类型Spark数据集的编码器
- 带有DataFrame API的Apache Spark MLlib在createDataFrame()或read()时会产生java.net.URISyntaxException .csv(…)
- 为什么SparkSession为一个动作执行两次?
- Spark – 使用数据框语法进行HAVING分组?
- 基于第二个Dataframe的DataFrame过滤