Tag: udf

Spark – Java UDF返回多列

我正在使用sparkSql 1.6.2(Java API),我必须处理以下DataFrame,其中包含2列中的值列表: ID AttributeName AttributeValue 0 [an1,an2,an3] [av1,av2,av3] 1 [bn1,bn2] [bv1,bv2] 所需的表是: ID AttributeName AttributeValue 0 an1 av1 0 an2 av2 0 an3 av3 1 bn1 bv1 1 bn2 bv2 我想我必须结合使用explode函数和自定义UDF函数。 我找到了以下资源: 在Spark SQL表中爆炸(转置?)多个列 如何使用JAVA在Spark DataFrame上调用UDF? 我可以成功运行一个读取两列的示例,并返回列中前两个字符串的串联 UDF2 combineUDF = new UDF2<Seq, Seq, String>() { public String call(final Seq col1, final Seq col2) throws […]