Json使用Java反对Parquet格式而不转换为AVRO（不使用Spark，Hive，Pig，Impala）

我有一个场景，使用Java将存在为Json对象的消息转换为Apache Parquet格式。任何示例代码或示例都会有所帮助。至于我发现将消息转换为Parquet的信息，正在使用Hive，Pig，Spark。我需要转换为Parquet，而不仅仅涉及Java。

要将JSON数据文件转换为Parquet，您需要一些内存中表示。 Parquet没有自己的Java对象集; 相反，它重用其他格式的对象，如Avro和Thrift。我们的想法是Parquet本身可以使用您的应用程序可能已经使用过的对象。

要转换JSON，您需要将记录转换为Avro 内存中对象并将其传递给Parquet，但您无需将文件转换为Avro，然后转换为Parquet。

转换为Avro对象已经为您完成，请参阅Kite的JsonUtil ，并准备用作文件阅读器。转换方法需要Avro架构，但您可以使用相同的库从JSON数据推断Avro架构。

要编写这些记录，您只需要使用ParquetAvroWriter 。整个设置如下：

 Schema jsonSchema = JsonUtil.inferSchema(fs.open(source), "RecordName", 20); try (JSONFileReader reader = new JSONFileReader<>( fs.open(source), jsonSchema, Record.class)) { reader.initialize(); try (ParquetWriter writer = AvroParquetWriter .builder(outputPath) .withConf(new Configuration) .withCompressionCodec(CompressionCodecName.SNAPPY) .withSchema(jsonSchema) .build()) { for (Record record : reader) { writer.write(record); } } }

我有同样的问题，我明白，没有使用avro或其他框架，没有太多的样本可用于镶木地板。最后我和Avro一起去了。 🙂

看看这个，可以帮到你。

Json使用Java反对Parquet格式而不转换为AVRO（不使用Spark，Hive，Pig，Impala）

扩展Hadoop的TableInputFormat以使用用于分发时间戳键的前缀进行扫描

设置classpath后，包org.apache.hadoop.conf不存在

来自hbase / filesystem的hadoop namenode连接中EOFexception的含义是什么？

将参数传递给Hadoop中的map函数

DataNode无法在Hadoop中启动

Map在eclipse中减少2.4.1 hadoop的客户端jar

从java中删除hdfs文件夹

错误：java.io.IOException：错误的值类：class org.apache.hadoop.io.Text不是类Myclass

java.sql.SQLException：没有为jdbc找到合适的驱动程序：hive：// localhost：10000 / default

Hadoop：java.lang.ClassCastException：org.apache.hadoop.io.LongWritable无法强制转换为org.apache.hadoop.io.Text