Tag: apache spark

无法找到Web UI的资源路径:org / apache / spark / ui / static创建Spark应用程序时

我正在使用spark-cassandra-connector创建一个java API。当它在eclipse上运行时它工作正常。 然后我创建了一个可运行的jar文件并通过命令行执行它,它给了我跟随错误。 15/02/17 14:56:41 INFO spark.HttpServer: Starting HTTP Server 15/02/17 14:56:42 INFO server.Server: jetty-8.yz-SNAPSHOT 15/02/17 14:56:42 INFO server.AbstractConnector: Started SocketConnector@0.0.0.0:58625 Exception in thread “main” java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source) at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source) at java.lang.reflect.Method.invoke(Unknown Source) at org.eclipse.jdt.internal.jarinjarloader.JarRsrcLoader.main(JarRsrcLoa der.java:58) Caused by: java.lang.Exception: Could not find resource path for Web UI: org/apache/spark/ui/static at org.apache.spark.ui.JettyUtils$.createStaticHandler(JettyUtils.scala: […]

在Java 1.8中找到spark groupBy中的部门平均值

我有一个下面的数据集,第一列是部门,第二列是工资。 我想按部门计算工资的平均值。 IT 2000000 HR 2000000 IT 1950000 HR 2200000 Admin 1900000 IT 1900000 IT 2200000 我在下面进行了操作 JavaPairRDD<String, Iterable> rddY = employees.groupByKey(); System.out.println(“” + rddY.collect()); 得到以下输出: [(IT,[2000000, 1950000, 1900000, 2200000]), (HR,[2000000, 2200000]), (Admin,[1900000])] 我需要的是 我想用spark RDD计算总平均值和部门平均值。 如何在spark中使用groupBy函数来计算平均值。

如何将自定义Java类转换为Spark数据集

我无法找到一种方法将List的Test对象转换为Spark中的数据集这是我的类: public class Test { public String a; public String b; public Test(String a, String b){ this.a = a; this.b = b; } public List getList(){ List l = new ArrayList(); l.add(this.a); l.add(this.b); return l; } }

Bluemix Spark与Java

我有一个Bluemix试用版,我想将它与我使用swift存储使用Spark框架开发的Java应用程序一起使用。 此应用程序使用Maven进行构建过程。我知道BlueMix中有一个Spark服务。 我有几个问题: 我应该使用Jave liberty然后将Spark和Object存储绑定到它吗? 宣布火花import的正确方法是什么? 在我的Java程序中授权对象存储的正确方法是什么,因为Softlayer不支持keystone? 我可以看一下将这样的应用程序部署到Bluemix中的示例吗?

在Spark MLlib上使用Java中的Breeze

在尝试使用Java中的MLlib时,使用breeze Matrix操作的正确方法是什么? 例如,对于例如scala中的乘法,它只是“ matrix * vector ”。 如何用Java表示相应的function? 有一些方法,如“ $colon$times ”,可以通过正确的方式调用 breeze.linalg.DenseMatrix matrix= … breeze.linalg.DenseVector vector = … matrix.$colon$times( … 一个人可能需要一个运算符实例… breeze.linalg.operators.OpMulMatrix.Impl2但是要使用哪个确切类型的Operation实例和参数?

在Spark Web UI中看不到完成的作业

我正在使用./bin/spark-submit来运行我的Spark工作。 它运行正常,但打开Spark Web UI,我无法在完成列表中看到工作。 ./bin/spark-submit –name “myapp” –master local –conf “spark.master=spark://fahad:7077” –class com.apptest.App ~/app-0.0.1-SNAPSHOT.jar 注意:Spark版本2.0.1,运行1个工作程序, localhost:8080上的主UI localhost:8080 ,worker和master都是从./sbin/start-*.sh脚本运行的。

使用IN子句过滤Spark Cassandra连接器

我正面临着针对java的spark cassandra连接器过滤的一些问题。 Cassandra允许使用IN子句过滤分区键的最后一列。 例如 create table cf_text (a varchar,b varchar,c varchar, primary key((a,b),c)) Query : select * from cf_text where a =’asdf’ and b in (‘af’,’sd’); sc.cassandraTable(“test”, “cf_text”).where(“a = ?”, “af”).toArray.foreach(println) 我如何指定在spark中的CQL查询中使用的IN子句? 如何指定范围查询?

使用mapPartition和迭代器保存spark RDD

我有一些中间数据,我需要存储在HDFS和本地。 我正在使用Spark 1.6。 在HDFS中作为中间forms我在/output/testDummy/part-00000和/output/testDummy/part-00001获取数据。 我想使用Java / Scala将这些分区保存在本地,以便我可以将它们保存为/users/home/indexes/index.nt (通过在本地合并)或/users/home/indexes/index-0000.nt和/home/indexes/index-0001.nt分开。 这是我的代码:注意:testDummy与test相同,输出有两个分区。 我想单独存储它们或组合它们但是本地与index.nt文件。 我更喜欢分别存储在两个数据节点中。 我正在使用集群并在YARN上提交spark工作。 我还添加了一些评论,多少次以及我得到的数据。 我该怎么办? 任何帮助表示赞赏。 val testDummy = outputFlatMapTuples.coalesce(Constants.INITIAL_PARTITIONS).saveAsTextFile(outputFilePathForHDFS+”/testDummy”) println(“testDummy done”) //1 time print def savesData(iterator: Iterator[(String)]): Iterator[(String)] = { println(“Inside savesData”) // now 4 times when coalesce(Constants.INITIAL_PARTITIONS)=2 println(“iter size”+iterator.size) // 2 735 2 735 values val filenamesWithExtension = outputPath + “/index.nt” println(“filenamesWithExtension “+filenamesWithExtension.length) //4 […]

使用–jars的spark-submit yarn-cluster不起作用?

我试图通过以下命令向CDH纱线集群提交火花作业 我已经尝试了几种组合,但一切都行不通…我现在所有的poi jar都位于我的本地/ root,以及HDFS / user / root / lib,因此我尝试了以下 spark-submit –master yarn-cluster –class “ReadExcelSC” ./excel_sc.jar –jars /root/poi-3.12.jars, /root/poi-ooxml-3.12.jar, /root/poi-ooxml-schemas-3.12.jar spark-submit –master yarn-cluster –class “ReadExcelSC” ./excel_sc.jar –jars file:/root/poi-3.12.jars, file:/root/poi-ooxml-3.12.jar, file:/root/poi-ooxml-schemas-3.12.jar spark-submit –master yarn-cluster –class “ReadExcelSC” ./excel_sc.jar –jars hdfs://mynamenodeIP:8020/user/root/poi-3.12.jars,hdfs://mynamenodeIP:8020/user/root/poi-ooxml-3.12.jar,hdfs://mynamenodeIP:8020/user/root/poi-ooxml-schemas-3.12.jar 如何将jar传播到所有群集节点? 因为以上都没有工作,并且工作仍然以某种方式无法引用该类,因为我不断得到相同的错误: java.lang.NoClassDefFoundError: org/apache/poi/ss/usermodel/WorkbookFactory 相同的命令与“–master local”一起使用 ,没有指定–jars,因为我已将我的jar复制到/ opt / cloudera / parcels / CDH / lib / […]

RDD不可序列化的Cassandra / Spark连接器java API

所以我之前对如何在java maven项目中使用spark查询cassandra有一些疑问: 在Java Maven项目中通过Spark查询Cassandra中的数据 好吧,我的问题得到了回答并且有效,但是我遇到了一个问题(可能是一个问题)。 我正在尝试使用datastax java API。 这是我的代码: package com.angel.testspark.test2; import org.apache.commons.lang3.StringUtils; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.Function; import java.io.Serializable; import static com.datastax.spark.connector.CassandraJavaUtil.*; public class App { // firstly, we define a bean class public static class Person implements Serializable { private Integer id; private String fname; private String lname; private String […]