Apache Spark – 添加两列

有没有办法添加两列，以便第一列是日期，第二列包含需要添加的天数？我尝试着

date_add(res.col("date"), res.col("days"));

但这不起作用，因为date_add()需要一个Column和一个int ，而我有两列。

谢谢！

这是DataFrame DSL的限制， DataFrame不是引擎本身。它不是最佳的，但你可以用expr替换函数调用：

 import org.apache.spark.sql.functions.{expr, col} val df = Seq(("2012-04-05", 6)) .toDF("date", "days") .withColumn("date", col("date").cast("date")) df.select(expr("date_add(date, days)"))

以下是使用UDF的解决方案：请参阅udfDateAdd()以下函数定义

这里不能使用sql函数date_add（）：java.sql.Date首先转换为LocalDate（java8），在此之后添加，然后再转换回java.sql.Date：

 import java.sql.Date import java.time.LocalDate; // sample data val df = Seq(("2015-02-21", 8), ("2016-02-21", 8)).toDF("date", "days"). withColumn("date", col("date").cast("date")) val udfDateAdd=udf[Date,Date,Int]{ (dt,inc) => java.sql.Date.valueOf( dt.toLocalDate().plusDays(inc) ) }

结果：

 df.withColumn("newdate", udfDateAdd($"date",$"days")).show() +----------+----+----------+ | date|days| newdate| +----------+----+----------+ |2015-02-21| 8|2015-03-01| |2016-02-21| 8|2016-02-29| +----------+----+----------+

Apache Spark – 添加两列

解决Apache Spark中的依赖性问题

Apache Spark Streaming的失败集成测试

如何加载java属性文件并在Spark中使用？

Spark spark-submit –jars参数需要逗号列表，如何声明jar的目录？

无法使用Java连接到HBase

无法读取工件描述符：IntelliJ

Spark流式传输DStream RDD以获取文件名

如何在使用JAR运行spark-submit时将程序参数传递给main函数？

如果列标签是同名的，如何使用java解析Spark中的XML

Spark 1.5.1，Cassandra Connector 1.5.0-M2，Cassandra 2.1，Scala 2.10，NoSuchMethodError番石榴依赖