Tag: parquet

Spark SQL:镶嵌错误的嵌套类

我似乎无法写一个JavaRDD ,其中T是一个说法, Person类。 我把它定义为 public class Person implements Serializable { private static final long serialVersionUID = 1L; private String name; private String age; private Address address; …. Address : public class Address implements Serializable { private static final long serialVersionUID = 1L; private String City; private String Block; … 然后我像这样创建一个JavaRDD : JavaRDD people = sc.textFile(“/user/johndoe/spark/data/people.txt”).map(new […]

使用Java API将Parquet格式写入HDFS,而不使用Avro和MR

通过直接创建 Pojo的Parquet Schema ,而不使用avro和MR ,将Parquet格式写入HDFS (使用Java API)的简单方法是什么? 我发现的样本已经过时,使用弃用的方法也使用了Avro,spark或MR中的一种。