使用Apache Spark从Amazon S3解析文件

我正在使用Apache Spark，我必须从Amazon S3解析文件。从Amazon S3路径获取文件时，如何知道文件扩展名？

我建议按照Cloudera教程访问通过Spark访问Amazon S3中存储的数据

要从Spark应用程序访问存储在Amazon S3中的数据，您可以使用Hadoop文件API（ SparkContext.hadoopFile ， JavaHadoopRDD.saveAsHadoopFile ， SparkContext.newAPIHadoopRDD和JavaHadoopRDD.saveAsNewAPIHadoopFile ）来读取和编写RDD，提供s3a://bucket_name/path/to/file.txtforms的URL s3a://bucket_name/path/to/file.txt 。

您可以使用Data Source API读写Spark SQL DataFrames。

关于文件扩展名，几乎没有解决方案。你可以简单地通过文件名（即file.txt ）获取扩展名。

如果您的扩展程序被存储在S3存储桶中的文件删除，您仍然可以知道内容类型，查看为每个S3资源添加的元数据。

http://docs.aws.amazon.com/AmazonS3/latest/API/RESTObjectHEAD.html

Interesting Posts

仅列出s3存储桶中的子文件夹

如何将S3对象写入文件？

将大文件上载到Amazon S3时出现问题

使用预先签名的URL通过curl上传到s3（获得403）

AmazonClientException：数据读取的长度与预期的不同

AWS S3 – 列出没有前缀的文件夹中的所有对象

如何比较本地文件与Amazon s3文件

如何将某个S3文件标记为Make Public

如何从S3下载GZip文件？

我可以更新现有的Amazon S3对象吗？