从HDFS读取一个简单的Avro文件

我试图简单读取存储在HDFS中的Avro文件。 我发现当它在本地文件系统上时如何读取它….

FileReader reader = DataFileReader.openReader(new File(filename), new GenericDatumReader()); for (GenericRecord datum : fileReader) { String value = datum.get(1).toString(); System.out.println("value = " value); } reader.close(); 

但是我的文件是HDFS。 我不能给openReader一个Path或一个FSDataInputStream。 我怎样才能简单地读取HDFS中的Avro文件?

编辑:我通过创建实现SeekableInput的自定义类(SeekableHadoopInput)来实现此目的。 我从github上的“Ganglion”中“偷”了这个。 似乎仍然会有一个Hadoop / Avro集成路径。

谢谢

FsInput类(在avro-mapred子模块中,因为它依赖于Hadoop)可以做到这一点。 它提供Avro数据文件所需的可搜索输入流。

 Path path = new Path("/path/on/hdfs"); Configuration config = new Configuration(); // make this your Hadoop env config SeekableInput input = new FsInput(path, config); DatumReader reader = new GenericDatumReader(); FileReader fileReader = DataFileReader.openReader(input, reader); for (GenericRecord datum : fileReader) { System.out.println("value = " + datum); } fileReader.close(); // also closes underlying FsInput