使用Java API将Parquet格式写入HDFS，而不使用Avro和MR

通过直接创建 Pojo的Parquet Schema ，而不使用avro和MR ，将Parquet格式写入HDFS （使用Java API）的简单方法是什么？

我发现的样本已经过时，使用弃用的方法也使用了Avro，spark或MR中的一种。

实际上，没有很多样本可用于在没有外部框架的帮助下读取/编写Apache镶木地板文件。

核心镶木地板库是镶木地板，您可以在其中找到一些直接读/写的测试文件： https ： //github.com/apache/parquet-mr/blob/master/parquet-column/src/test/java/org/阿帕奇/拼花/ IO / TestColumnIO.java

然后，您只需要使用与HDFS文件相同的function。您可以按照以下SOW问题：使用Java访问HDFS中的文件

更新：响应API的弃用部分：AvroWriteSupport应该被AvroParquetWriter取代，我检查ParquetWriter它不被弃用，可以安全使用。

问候，

卢瓦克

Interesting Posts

为什么我们在Hadoop堆栈中需要ZooKeeper？

如何在运行Hadoop MapReduce作业时将文件名/文件内容作为MAP的键/值输入？

如何强制Spark执行代码？

Trunk无法编译，因为在Eclipse下使用Hadoop时libprotoc已经过时了

如何使用Java从Hadoop读取偏移量的文件

分布式作业调度，管理和报告

Json使用Java反对Parquet格式而不转换为AVRO（不使用Spark，Hive，Pig，Impala）

在本地/远程集群上运行java hadoop作业

hbase-site.xml中的zookeeper仲裁设置究竟是什么？

CDH5.2：MR，无法初始化任何输出收集器