如果列标签是同名的，如何使用java解析Spark中的XML

我尝试使用java 1.8解析spark 2.2中的XML，但这并没有给出预期的数据集。

样本xml –

   url1   123   english

我试过的代码 –

  Dataset xmlParse = spark .read() .format("com.databricks.spark.xml") //.option("rootTag", "RECORDS") .option("rowTag", "RECORD") .load("sample.xml"); xmlParse.printSchema() root |-- PROP: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- PVAL: string (nullable = true) | | |-- _NAME: string (nullable = true)

xmlParse.show

  |PROP +------------------------------------------- |[[urlvalue,product.url],[123,product.id],[English,product.language]] |

预期数据集/dataframe： –

  product.url|product.id|product.language urlvalue |123 |English

序列化RDD
如何在YARN Spark作业中设置环境变量？
Spark DataFrame并重命名多个列（Java）
Spark ML Pipeline api保存不起作用
Spark – 可以在JAVA中将MultiMap转换为DataFrame
连接到远程Spark master – Java / Scala
如何使用Java在Spark SQL中加入多列以在DataFrame中进行过滤
从Apache Spark SQL中的用户定义聚合函数（UDAF）返回多个数组
Spark：以编程方式获取集群核心数

如果列标签是同名的，如何使用java解析Spark中的XML

更改DataFrame.write（）的输出文件名前缀

如果我在Spark中缓存两次相同的RDD会发生什么

Apache Spark Streaming的失败集成测试

BroadCast变量在Spark程序中发布

使用sc.textFile以递归方式从子目录中获取文件内容

Spark DataFrame – 选择n个随机行

SparkContext setLocalProperties

如何使用Hive支持创建SparkSession（未找到“Hive类”）？

如何将自定义Java类转换为Spark数据集

初始工作没有接受任何资源; 检查群集UI以确保工作人员已注册并具有足够的资源