Tag: scala

Spark spark-submit –jars参数需要逗号列表,如何声明jar的目录?

在Spark文档中提交应用程序时,从1.6.0及更早版本开始 ,目前尚不清楚如何指定–jars参数,因为它显然不是冒号分隔的类路径而不是目录扩展。 文档说“捆绑jar的路径,包括你的应用程序和所有依赖项.URL必须在集群内部全局可见,例如,hdfs://路径或所有节点上都存在的file://路径。 “ 问题:在$ SPARK_HOME / bin的spark-submit脚本中使用–jars提交类路径的所有选项有哪些? 任何未记录的内容都可以作为文档的改进提交? 我问,因为当我测试 – 今天的时候,我们必须明确地提供每个jar的路径: /usr/local/spark/bin/spark-submit –class jpsgcs.thold.PipeLinkageData —jars=local:/usr/local/spark/jars/groovy-all-2.3.3.jar,local:/usr/local/spark/jars/guava-14.0.1.jar,local:/usr/local/spark/jars/jopt-simple-4.6.jar,local:/usr/local/spark/jars/jpsgcs-core-1.0.8-2.jar,local:/usr/local/spark/jars/jpsgcs-pipe-1.0.6-7.jar /usr/local/spark/jars/thold-0.0.1-1.jar 我们选择在每个worker上的/ usr / local / spark / jars中使用所有jar预填充集群,似乎如果没有提供local:/ file:/或hdfs:,则默认为file:/并且驱动程序使驱动程序运行的Web服务器上的jar可用。 我选择了本地,如上所述。 而且似乎我们不需要将主jar放在–jars参数中,我还没有测试过最后一个参数中的其他类(application-jar arg per docs,即/ usr / local / spark / jars / thold-0.0.1-1.jar)被发送到工作者,或者如果我需要将application-jar放在-jars路径中以获取未在–class之后命名的类。 (并且使用–deploy-mode客户端授予Spark独立模式,您还必须在每个worker上放置驱动程序的副本,但您不知道哪个worker会运行驱动程序)

Apache Spark中的矩阵乘法

我正在尝试使用Apache Spark和Java执行矩阵乘法。 我有两个主要问题: 如何创建可以代表Apache Spark中的矩阵的RDD? 如何将两个这样的RDD相乘?

相当于Scala dropWhile

我正在努力寻找一种方法来跳过流的开头的一些元素,具体取决于谓词。 像这样的东西: dropWhile( n -> n < 3, Stream.of( 0, 1, 2, 3, 0, 1, 2, 3, 4 ) ) .forEach( System.out::println ); 3 0 1 2 3 4 这相当于Scala dropWhile 。

使用Bouncy Castle签署CSR

我找不到任何描述如何使用BC签署CSR的代码/文档。 作为输入,我将CSR作为字节数组,并希望以PEM和/或DER格式获得证书。 我已经走到了这一步 def signCSR(csrData:Array[Byte], ca:CACertificate, caPassword:String) = { val csr = new PKCS10CertificationRequestHolder(csrData) val spi = csr.getSubjectPublicKeyInfo val ks = new java.security.spec.X509EncodedKeySpec(spi.getDEREncoded()) val kf = java.security.KeyFactory.getInstance(“RSA”) val pk = kf.generatePublic(ks) val (caCert, caPriv) = parsePKCS12(ca.pkcs12data, caPassword) val fromDate : java.util.Date = new java.util.Date // FixMe val toDate = fromDate // FixMe val issuer = […]

将列表拆分为多个列表,在java 8中具有固定数量的元素

我想要一些类似于scala分组函数的东西。 基本上,一次挑选2个元素并处理它们。 以下是相同的参考: 将列表拆分为具有固定数量元素的多个列表 Lambdas确实提供了诸如groupingBy和partitioningBy之类的东西,但它们似乎都没有像Scala中的分组函数那样做。 任何指针将不胜感激。

解决Apache Spark中的依赖性问题

构建和部署Spark应用程序时的常见问题是: java.lang.ClassNotFoundException 。 object x is not a member of package y编译错误object x is not a member of package y 。 java.lang.NoSuchMethodError 如何解决这些问题?