Spark的Column.isin函数不带List

我正在尝试从Spark Dataframe中过滤出行。

val sequence = Seq(1,2,3,4,5) df.filter(df("column").isin(sequence))

不幸的是，我得到了一个不受支持的文字类型错误

 java.lang.RuntimeException: Unsupported literal type class scala.collection.immutable.$colon$colon List(1,2,3,4,5)

根据文档，它采用scala.collection.Seq列表

我想我不想要文字？然后我可以接受什么样的包装类呢？

@ JustinPihony的答案是正确的，但它不完整。 isin函数为参数采用重复参数 ，因此您需要将其传递给：

 scala> val df = sc.parallelize(Seq(1,2,3,4,5,6,7,8,9)).toDF("column") // df: org.apache.spark.sql.DataFrame = [column: int] scala> val sequence = Seq(1,2,3,4,5) // sequence: Seq[Int] = List(1, 2, 3, 4, 5) scala> val result = df.filter(df("column").isin(sequence : _*)) // result: org.apache.spark.sql.DataFrame = [column: int] scala> result.show // +------+ // |column| // +------+ // | 1| // | 2| // | 3| // | 4| // | 5| // +------+

发生这种情况是因为底层的Scala实现使用了varargs ，因此Java中的文档并不完全正确。它使用@varargs注释，因此您只需传入一个数组。

Spark的Column.isin函数不带List

Spark ML Pipeline api保存不起作用

如何使用单个spark上下文在Apache Spark中运行并发作业（操作）

Spark序列化和Java序列化有什么区别？

RDD不可序列化的Cassandra / Spark连接器java API

java + spark：org.apache.spark.SparkException：作业已中止：任务不可序列化：java.io.NotSerializableException

不断增加YARN中Spark应用程序的物理内存

运行apache spark job时，任务不可序列化exception

Spark中的并发作业执行

在Java 1.8中找到spark groupBy中的部门平均值

Scala错误：无法在Scala IDE和Eclipse中找到或加载主类