Tag: apache spark

无法找到Web UI的资源路径：org / apache / spark / ui / static创建Spark应用程序时: 我正在使用spark-cassandra-connector创建一个java API。当它在eclipse上运行时它工作正常。然后我创建了一个可运行的jar文件并通过命令行执行它，它给了我跟随错误。 15/02/17 14:56:41 INFO spark.HttpServer: Starting HTTP Server 15/02/17 14:56:42 INFO server.Server: jetty-8.yz-SNAPSHOT 15/02/17 14:56:42 INFO server.AbstractConnector: Started SocketConnector@0.0.0.0:58625 Exception in thread “main” java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source) at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source) at java.lang.reflect.Method.invoke(Unknown Source) at org.eclipse.jdt.internal.jarinjarloader.JarRsrcLoader.main(JarRsrcLoa der.java:58) Caused by: java.lang.Exception: Could not find resource path for Web UI: org/apache/spark/ui/static at org.apache.spark.ui.JettyUtils$.createStaticHandler(JettyUtils.scala: […]

在Java 1.8中找到spark groupBy中的部门平均值: 我有一个下面的数据集，第一列是部门，第二列是工资。我想按部门计算工资的平均值。 IT 2000000 HR 2000000 IT 1950000 HR 2200000 Admin 1900000 IT 1900000 IT 2200000 我在下面进行了操作 JavaPairRDD<String, Iterable> rddY = employees.groupByKey(); System.out.println(“” + rddY.collect()); 得到以下输出： [(IT,[2000000, 1950000, 1900000, 2200000]), (HR,[2000000, 2200000]), (Admin,[1900000])] 我需要的是我想用spark RDD计算总平均值和部门平均值。如何在spark中使用groupBy函数来计算平均值。

如何将自定义Java类转换为Spark数据集: 我无法找到一种方法将List的Test对象转换为Spark中的数据集这是我的类： public class Test { public String a; public String b; public Test(String a, String b){ this.a = a; this.b = b; } public List getList(){ List l = new ArrayList(); l.add(this.a); l.add(this.b); return l; } }

Bluemix Spark与Java: 我有一个Bluemix试用版，我想将它与我使用swift存储使用Spark框架开发的Java应用程序一起使用。此应用程序使用Maven进行构建过程。我知道BlueMix中有一个Spark服务。我有几个问题：我应该使用Jave liberty然后将Spark和Object存储绑定到它吗？宣布火花import的正确方法是什么？在我的Java程序中授权对象存储的正确方法是什么，因为Softlayer不支持keystone？我可以看一下将这样的应用程序部署到Bluemix中的示例吗？

在Spark MLlib上使用Java中的Breeze: 在尝试使用Java中的MLlib时，使用breeze Matrix操作的正确方法是什么？例如，对于例如scala中的乘法，它只是“ matrix * vector ”。如何用Java表示相应的function？有一些方法，如“ $colon$times ”，可以通过正确的方式调用 breeze.linalg.DenseMatrix matrix= … breeze.linalg.DenseVector vector = … matrix.$colon$times( … 一个人可能需要一个运算符实例… breeze.linalg.operators.OpMulMatrix.Impl2但是要使用哪个确切类型的Operation实例和参数？

在Spark Web UI中看不到完成的作业: 我正在使用./bin/spark-submit来运行我的Spark工作。它运行正常，但打开Spark Web UI，我无法在完成列表中看到工作。 ./bin/spark-submit –name “myapp” –master local –conf “spark.master=spark://fahad:7077” –class com.apptest.App ~/app-0.0.1-SNAPSHOT.jar 注意：Spark版本2.0.1，运行1个工作程序， localhost:8080上的主UI localhost:8080 ，worker和master都是从./sbin/start-*.sh脚本运行的。

使用IN子句过滤Spark Cassandra连接器: 我正面临着针对java的spark cassandra连接器过滤的一些问题。 Cassandra允许使用IN子句过滤分区键的最后一列。例如 create table cf_text (a varchar,b varchar,c varchar, primary key((a,b),c)) Query : select * from cf_text where a =’asdf’ and b in (‘af’,’sd’); sc.cassandraTable(“test”, “cf_text”).where(“a = ?”, “af”).toArray.foreach(println) 我如何指定在spark中的CQL查询中使用的IN子句？如何指定范围查询？

使用mapPartition和迭代器保存spark RDD: 我有一些中间数据，我需要存储在HDFS和本地。我正在使用Spark 1.6。在HDFS中作为中间forms我在/output/testDummy/part-00000和/output/testDummy/part-00001获取数据。我想使用Java / Scala将这些分区保存在本地，以便我可以将它们保存为/users/home/indexes/index.nt （通过在本地合并）或/users/home/indexes/index-0000.nt和/home/indexes/index-0001.nt分开。这是我的代码：注意：testDummy与test相同，输出有两个分区。我想单独存储它们或组合它们但是本地与index.nt文件。我更喜欢分别存储在两个数据节点中。我正在使用集群并在YARN上提交spark工作。我还添加了一些评论，多少次以及我得到的数据。我该怎么办？任何帮助表示赞赏。 val testDummy = outputFlatMapTuples.coalesce(Constants.INITIAL_PARTITIONS).saveAsTextFile(outputFilePathForHDFS+”/testDummy”) println(“testDummy done”) //1 time print def savesData(iterator: Iterator[(String)]): Iterator[(String)] = { println(“Inside savesData”) // now 4 times when coalesce(Constants.INITIAL_PARTITIONS)=2 println(“iter size”+iterator.size) // 2 735 2 735 values val filenamesWithExtension = outputPath + “/index.nt” println(“filenamesWithExtension “+filenamesWithExtension.length) //4 […]

使用–jars的spark-submit yarn-cluster不起作用？: 我试图通过以下命令向CDH纱线集群提交火花作业我已经尝试了几种组合，但一切都行不通…我现在所有的poi jar都位于我的本地/ root，以及HDFS / user / root / lib，因此我尝试了以下 spark-submit –master yarn-cluster –class “ReadExcelSC” ./excel_sc.jar –jars /root/poi-3.12.jars, /root/poi-ooxml-3.12.jar, /root/poi-ooxml-schemas-3.12.jar spark-submit –master yarn-cluster –class “ReadExcelSC” ./excel_sc.jar –jars file:/root/poi-3.12.jars, file:/root/poi-ooxml-3.12.jar, file:/root/poi-ooxml-schemas-3.12.jar spark-submit –master yarn-cluster –class “ReadExcelSC” ./excel_sc.jar –jars hdfs://mynamenodeIP:8020/user/root/poi-3.12.jars,hdfs://mynamenodeIP:8020/user/root/poi-ooxml-3.12.jar,hdfs://mynamenodeIP:8020/user/root/poi-ooxml-schemas-3.12.jar 如何将jar传播到所有群集节点？因为以上都没有工作，并且工作仍然以某种方式无法引用该类，因为我不断得到相同的错误： java.lang.NoClassDefFoundError: org/apache/poi/ss/usermodel/WorkbookFactory 相同的命令与“–master local”一起使用，没有指定–jars，因为我已将我的jar复制到/ opt / cloudera / parcels / CDH / lib / […]

RDD不可序列化的Cassandra / Spark连接器java API: 所以我之前对如何在java maven项目中使用spark查询cassandra有一些疑问：在Java Maven项目中通过Spark查询Cassandra中的数据好吧，我的问题得到了回答并且有效，但是我遇到了一个问题（可能是一个问题）。我正在尝试使用datastax java API。这是我的代码： package com.angel.testspark.test2; import org.apache.commons.lang3.StringUtils; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.Function; import java.io.Serializable; import static com.datastax.spark.connector.CassandraJavaUtil.*; public class App { // firstly, we define a bean class public static class Person implements Serializable { private Integer id; private String fname; private String lname; private String […]

Tag: apache spark

无法找到Web UI的资源路径：org / apache / spark / ui / static创建Spark应用程序时

在Java 1.8中找到spark groupBy中的部门平均值

如何将自定义Java类转换为Spark数据集

Bluemix Spark与Java

在Spark MLlib上使用Java中的Breeze

在Spark Web UI中看不到完成的作业

使用IN子句过滤Spark Cassandra连接器

使用mapPartition和迭代器保存spark RDD

使用–jars的spark-submit yarn-cluster不起作用？

RDD不可序列化的Cassandra / Spark连接器java API

Java中的输入和输出流管道

使用java获取mongoDB中的打开连接数

从java调用Perl，主要用于正则表达式匹配

如何从Java中的字符串值获取枚举值？

寻找有关JIDE的反馈

required：double found：没有参数

JRMP连接建立错误

JScrollPane中的Java JPanel？

如何在spring test中的@Test方法之前只填充一次数据库？

使用Apache POI删除Excel工作表

如何将OutputStream中的数据放入ByteBuffer？

有条件的停止计时器只能第一次使用？

如何更改图像的亮度

Java – 使用按位运算的循环移位

如何将嵌套Java集合中的所有项目展平为单个列表？