使用IN子句过滤Spark Cassandra连接器

我正面临着针对java的spark cassandra连接器过滤的一些问题。 Cassandra允许使用IN子句过滤分区键的最后一列。例如

create table cf_text (a varchar,b varchar,c varchar, primary key((a,b),c)) Query : select * from cf_text where a ='asdf' and b in ('af','sd'); sc.cassandraTable("test", "cf_text").where("a = ?", "af").toArray.foreach(println)

我如何指定在spark中的CQL查询中使用的IN子句？如何指定范围查询？

只是想知道，但你的Spark代码上面有效吗？我认为Spark不允许在分区键上使用WHERE （在你的情况下为a和b ），因为它在引擎盖下使用它们（参见本问题的最后一个答案）： Spark Datastax Java API Select语句

在任何情况下，使用Cassandra Spark连接器，您都可以堆叠WHERE子句，并且可以使用List指定IN 。

 List valuesList = new ArrayList(); valuesList.Add("value2"); valuesList.Add("value3"); sc.cassandraTable("test", "cf") .where("column1 = ?", "value1") .where("column2 IN ?", valuesList) .keyBy(new Function() { public String call(MyCFClass _myCF) throws Exception { return _myCF.getId(); } });

请注意，使用IN和Cassandra / CQL的常规规则仍适用于此处。

范围查询以类似的方式运行：

 sc.cassandraTable("test", "person") .where("age > ?", "15") .where("age < ?", "20") .keyBy(new Function() { public String call(Person _person) throws Exception { return _person.getPersonid(); } });

使用IN子句过滤Spark Cassandra连接器

Spark：以编程方式获取集群核心数

使用Java从另一个应用程序部署Apache Spark应用程序，这是最佳实践

Spark DataFrame并重命名多个列（Java）

Spark 2.0.1写入错误：引起：java.util.NoSuchElementException

如何通过Sparklyr在本地模式下运行Spark时配置驱动程序内存？

如何下载dse.jar

在同一Master下的Java和R Apps之间共享SparkContext

类型不匹配：无法从Java Spark中的Iterator 转换

如何为每个记录生成唯一ID

基于第二个Dataframe的DataFrame过滤