Tag: hadoop

使用mapPartition和迭代器保存spark RDD: 我有一些中间数据，我需要存储在HDFS和本地。我正在使用Spark 1.6。在HDFS中作为中间forms我在/output/testDummy/part-00000和/output/testDummy/part-00001获取数据。我想使用Java / Scala将这些分区保存在本地，以便我可以将它们保存为/users/home/indexes/index.nt （通过在本地合并）或/users/home/indexes/index-0000.nt和/home/indexes/index-0001.nt分开。这是我的代码：注意：testDummy与test相同，输出有两个分区。我想单独存储它们或组合它们但是本地与index.nt文件。我更喜欢分别存储在两个数据节点中。我正在使用集群并在YARN上提交spark工作。我还添加了一些评论，多少次以及我得到的数据。我该怎么办？任何帮助表示赞赏。 val testDummy = outputFlatMapTuples.coalesce(Constants.INITIAL_PARTITIONS).saveAsTextFile(outputFilePathForHDFS+”/testDummy”) println(“testDummy done”) //1 time print def savesData(iterator: Iterator[(String)]): Iterator[(String)] = { println(“Inside savesData”) // now 4 times when coalesce(Constants.INITIAL_PARTITIONS)=2 println(“iter size”+iterator.size) // 2 735 2 735 values val filenamesWithExtension = outputPath + “/index.nt” println(“filenamesWithExtension “+filenamesWithExtension.length) //4 […]

使用–jars的spark-submit yarn-cluster不起作用？: 我试图通过以下命令向CDH纱线集群提交火花作业我已经尝试了几种组合，但一切都行不通…我现在所有的poi jar都位于我的本地/ root，以及HDFS / user / root / lib，因此我尝试了以下 spark-submit –master yarn-cluster –class “ReadExcelSC” ./excel_sc.jar –jars /root/poi-3.12.jars, /root/poi-ooxml-3.12.jar, /root/poi-ooxml-schemas-3.12.jar spark-submit –master yarn-cluster –class “ReadExcelSC” ./excel_sc.jar –jars file:/root/poi-3.12.jars, file:/root/poi-ooxml-3.12.jar, file:/root/poi-ooxml-schemas-3.12.jar spark-submit –master yarn-cluster –class “ReadExcelSC” ./excel_sc.jar –jars hdfs://mynamenodeIP:8020/user/root/poi-3.12.jars,hdfs://mynamenodeIP:8020/user/root/poi-ooxml-3.12.jar,hdfs://mynamenodeIP:8020/user/root/poi-ooxml-schemas-3.12.jar 如何将jar传播到所有群集节点？因为以上都没有工作，并且工作仍然以某种方式无法引用该类，因为我不断得到相同的错误： java.lang.NoClassDefFoundError: org/apache/poi/ss/usermodel/WorkbookFactory 相同的命令与“–master local”一起使用，没有指定–jars，因为我已将我的jar复制到/ opt / cloudera / parcels / CDH / lib / […]

HBase：primefaces’检查行不存在并创建’操作: 我建议这应该是常见的情况之一，但可能在谷歌搜索时使用错误的关键字。我只需要用完全随机的密钥创建新的表记录。假设我获得了具有良好随机性的密钥（几乎是随机的）。但是，我不能100％确定没有行存在。所以我需要primefaces地做什么：有行键检查还没有行。如果行存在则拒绝操作。如果没有退出，请创建行。我在这个主题上找到的最有用的信息是关于HBase行锁的文章。我认为HBase行锁是合适的解决方案，但我想在没有显式行锁定的情况下更好地做到这一点。 ICV看起来不合适，因为我确实希望密钥是随机的。如果他们可以在“行不存在”条件下工作，那么CAS会很棒，但看起来他们不能。显式行锁具有区域拆分问题等缺点。有人可以加入有用的建议吗？优选的API是基于Java的，但实际上它更多的是概念而不是实现。

如何在动作书中的mahout中运行示例: 我试图在第7章中运行hello world示例。我在eclipse中创建了以下内容，然后将其打包到jar中： – package com.mycode.mahout import java.io.File; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.SequenceFile; import org.apache.hadoop.io.Text; import org.apache.mahout.clustering.WeightedVectorWritable; import org.apache.mahout.clustering.kmeans.Cluster; import org.apache.mahout.clustering.kmeans.KMeansDriver; import org.apache.mahout.common.distance.EuclideanDistanceMeasure; import org.apache.mahout.math.RandomAccessSparseVector; import org.apache.mahout.math.Vector; import org.apache.mahout.math.VectorWritable; public class SimpleKMeansClustering { public static final double[][] points = { {1, 1}, {2, […]

Hive NVL不适用于列的日期类型 – NullpointerException: 我在HDFS上使用MapR Hive分发并面临以下问题。如果对于表，列类型为“日期”类型，则NVL函数不起作用。这适用于其他数据类型。它只是抛出 NullpointerException:Null 甚至解释函数都抛出相同的exception。请帮忙。它是Hive发行版中的一个错误吗？

java.lang.IllegalArgumentException：错误的FS：，期望：hdfs：// localhost：9000: 我正在尝试实现reduce side join，并使用mapfile reader查找分布式缓存但是在stderr中检查时它没有查找值，它显示以下错误，lookupfile文件已经存在于hdfs中，并且似乎正确加载进入缓存，如stdout中所示。 java.lang.IllegalArgumentException：Wrong FS：file：/ app / hadoop / tmp / mapred / local / taskTracker / distcache / -8118663285704962921_-1196516983_170706299 / localhost / input / delivery_status / DeliveryStatusCodes / data，expected：hdfs：// localhost：9000 org.apache.hadoop.fs.FileSystem.checkPath（FileSystem.java:390）org.apache.hadoop.hdfs.DistributedFileSystem.getPathName（DistributedFileSystem.java:140）org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus （DistributedFileSystem.java:554）org.apache.hadoop.fs.FileSystem.getLength（FileSystem.java:816）org.apache.hadoop.io.SequenceFile $ Reader。（SequenceFile.java:1479）org.apache .hadoop.io.SequenceFile $ Reader。（SequenceFile.java:1474）org.apache.hadoop.io.MapFile $ Reader.createDataFileReader（MapFile.java:302）at org.apache.hadoop.io.MapFile $ Reader。打开（MapFile.java:284）org.apache.hadoop.io.MapFile $ Reader。（MapFile.java:273）org.apache.hadoop.io.MapFile $ Reader。（MapFile.java:260）at org .apache.hadoop.io.MapFile $读卡器（MapFile.java： 253）在mr_poc.reducerrsj.initializeDepartmentsMap（reducerrsj.java:59）mr_poc.reducerrsj.setup（reducerrsj.java:42）atg.apache.hadoop.mapreduce.Reducer.run（Reducer.java:174）at org。位于org.apache.hadoop.mapred.Child $ 4.run的org.apache.hadoop.mapred.ReduceTask.run（ReduceTask.java:418）中的apache.hadoop.mapred.ReduceTask.runNewReducer（ReduceTask.java:649） […]

hadoop中的mapreduce距离计算: 是否有使用hadoop map / reduce的距离计算实现。我想计算一组给定点之间的距离。寻找任何资源。编辑这是一个非常智能的解决方案。我尝试了一些与第一种算法相似的方法，而且我几乎得到了我想要的东西。我现在并不关心优化程序，但我的问题是dist（X，Y）函数无效。当我得到减速器上的所有点时，我无法通过迭代器上的所有点并计算距离。 stackoverflow.com上的某个人告诉我，hadoop上的Iterator与普通的JAVA Iterator不同，我不确定。但是，如果我能找到一种简单的方法来通过我的dist（）函数上的迭代器，我可以使用你的第二个算法进行优化。 //This is your code and I am refering to that code too, just to make my point clear. map(x,y) { for i in 1:N #number of points emit(i, (x,y)) //i did exactly like this reduce (i, X) p1 = X[i] for […]

如何使用Java有效地读取Hadoop（HDFS）文件中的第一行？: 我的Hadoop集群上有一个大的CSV文件。该文件的第一行是“标题”行，由字段名称组成。我想对这个标题行进行操作，但我不想处理整个文件。另外，我的程序是用Java编写的，并使用Spark。在Hadoop集群上只读取大型CSV文件的第一行的有效方法是什么？

为什么运行hadoop时数据节点会关闭？: 我在VirtualBox上的ubuntu 11.0.4上安装了hadoop 1.0.4（与我的主机名相同），不知怎的，数据节点关闭，在日志文件中出现以下错误 /************************************************************ STARTUP_MSG: Starting DataNode STARTUP_MSG: host = VirtualBox/127.0.1.1 STARTUP_MSG: args = [] STARTUP_MSG: version = 1.0.4 STARTUP_MSG: build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-1.0 -r 1393290; compiled by ‘hortonfo’ on Wed Oct 3 05:13:58 UTC 2012 ************************************************************/ 2013-08-18 19:52:21,301 INFO org.apache.hadoop.metrics2.impl.MetricsConfig: loaded properties from hadoop-metrics2.properties 2013-08-18 19:52:21,394 INFO org.apache.hadoop.metrics2.impl.MetricsSourceAdapter: MBean for source MetricsSystem,sub=Stats registered. 2013-08-18 19:52:21,412 […]