如何将数据附加到现有的镶木地板文件

我正在使用以下代码创建ParquetWriter并将记录写入其中。

ParquetWriter parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE); final GenericRecord record = new GenericData.Record(avroSchema);

 parquetWriter.write(record);

但它只允许创建新文件（在指定的路径上）。有没有办法将数据附加到现有的镶木地板文件（路径）？在我的情况下缓存parquetWriter是不可行的。

有一个名为append的Spark API SaveMode： https ：//spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/SaveMode.html我相信它可以解决你的问题。

使用示例：

 df.write.mode('append').parquet('parquet_data_file')

Parquet是一个柱状文件，它优化了将所有列一起写入。如果需要任何编辑，则需要重写文件。

来自维基

面向列的数据库将列的所有值序列化，然后将下一列的值序列化，依此类推。对于我们的示例表，数据将以这种方式存储：

 10:001,12:002,11:003,22:004; Smith:001,Jones:002,Johnson:003,Jones:004; Joe:001,Mary:002,Cathy:003,Bob:004; 40000:001,50000:002,44000:003,55000:004;

一些链接

https://en.wikipedia.org/wiki/Column-oriented_DBMS

https://parquet.apache.org/

如何将数据附加到现有的镶木地板文件

如何在Hadoop-.20 api中指定KeyValueTextInputFormat分隔符？

使用map-reduce构建分布式KD树

关闭tomcat服务器时无法加载org.apache.hadoop.util.ShutdownHookManager

DataNode无法在Hadoop中启动

OpenCV库加载了hadoop但没有工作

apache zeppelin抛出NullPointerException错误

由于java.io.NotSerializableException：org.apache.spark.SparkContext，Spark作业失败

将对象副本传递给hadoop中所有映射器的最佳实践

Hadoop：无法使用Jps命令

为什么检查hadoop中是否存在文件会导致NullPointerException？