Tag: hadoop

使用mapPartition和迭代器保存spark RDD

我有一些中间数据,我需要存储在HDFS和本地。 我正在使用Spark 1.6。 在HDFS中作为中间forms我在/output/testDummy/part-00000和/output/testDummy/part-00001获取数据。 我想使用Java / Scala将这些分区保存在本地,以便我可以将它们保存为/users/home/indexes/index.nt (通过在本地合并)或/users/home/indexes/index-0000.nt和/home/indexes/index-0001.nt分开。 这是我的代码:注意:testDummy与test相同,输出有两个分区。 我想单独存储它们或组合它们但是本地与index.nt文件。 我更喜欢分别存储在两个数据节点中。 我正在使用集群并在YARN上提交spark工作。 我还添加了一些评论,多少次以及我得到的数据。 我该怎么办? 任何帮助表示赞赏。 val testDummy = outputFlatMapTuples.coalesce(Constants.INITIAL_PARTITIONS).saveAsTextFile(outputFilePathForHDFS+”/testDummy”) println(“testDummy done”) //1 time print def savesData(iterator: Iterator[(String)]): Iterator[(String)] = { println(“Inside savesData”) // now 4 times when coalesce(Constants.INITIAL_PARTITIONS)=2 println(“iter size”+iterator.size) // 2 735 2 735 values val filenamesWithExtension = outputPath + “/index.nt” println(“filenamesWithExtension “+filenamesWithExtension.length) //4 […]

使用–jars的spark-submit yarn-cluster不起作用?

我试图通过以下命令向CDH纱线集群提交火花作业 我已经尝试了几种组合,但一切都行不通…我现在所有的poi jar都位于我的本地/ root,以及HDFS / user / root / lib,因此我尝试了以下 spark-submit –master yarn-cluster –class “ReadExcelSC” ./excel_sc.jar –jars /root/poi-3.12.jars, /root/poi-ooxml-3.12.jar, /root/poi-ooxml-schemas-3.12.jar spark-submit –master yarn-cluster –class “ReadExcelSC” ./excel_sc.jar –jars file:/root/poi-3.12.jars, file:/root/poi-ooxml-3.12.jar, file:/root/poi-ooxml-schemas-3.12.jar spark-submit –master yarn-cluster –class “ReadExcelSC” ./excel_sc.jar –jars hdfs://mynamenodeIP:8020/user/root/poi-3.12.jars,hdfs://mynamenodeIP:8020/user/root/poi-ooxml-3.12.jar,hdfs://mynamenodeIP:8020/user/root/poi-ooxml-schemas-3.12.jar 如何将jar传播到所有群集节点? 因为以上都没有工作,并且工作仍然以某种方式无法引用该类,因为我不断得到相同的错误: java.lang.NoClassDefFoundError: org/apache/poi/ss/usermodel/WorkbookFactory 相同的命令与“–master local”一起使用 ,没有指定–jars,因为我已将我的jar复制到/ opt / cloudera / parcels / CDH / lib / […]

HBase:primefaces’检查行不存在并创建’操作

我建议这应该是常见的情况之一,但可能在谷歌搜索时使用错误的关键字。 我只需要用完全随机的密钥创建新的表记录。 假设我获得了具有良好随机性的密钥(几乎是随机的)。 但是,我不能100%确定没有行存在。 所以我需要primefaces地做什么: 有行键检查还没有行。 如果行存在则拒绝操作。 如果没有退出,请创建行。 我在这个主题上找到的最有用的信息是关于HBase行锁的文章。 我认为HBase行锁是合适的解决方案,但我想在没有显式行锁定的情况下更好地做到这一点。 ICV看起来不合适,因为我确实希望密钥是随机的。 如果他们可以在“行不存在”条件下工作,那么CAS会很棒,但看起来他们不能。 显式行锁具有区域拆分问题等缺点。 有人可以加入有用的建议吗? 优选的API是基于Java的,但实际上它更多的是概念而不是实现。

如何在动作书中的mahout中运行示例

我试图在第7章中运行hello world示例。我在eclipse中创建了以下内容,然后将其打包到jar中: – package com.mycode.mahout import java.io.File; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.SequenceFile; import org.apache.hadoop.io.Text; import org.apache.mahout.clustering.WeightedVectorWritable; import org.apache.mahout.clustering.kmeans.Cluster; import org.apache.mahout.clustering.kmeans.KMeansDriver; import org.apache.mahout.common.distance.EuclideanDistanceMeasure; import org.apache.mahout.math.RandomAccessSparseVector; import org.apache.mahout.math.Vector; import org.apache.mahout.math.VectorWritable; public class SimpleKMeansClustering { public static final double[][] points = { {1, 1}, {2, […]

Hive NVL不适用于列的日期类型 – NullpointerException

我在HDFS上使用MapR Hive分发并面临以下问题。 如果对于表,列类型为“日期”类型,则NVL函数不起作用。 这适用于其他数据类型。 它只是抛出 NullpointerException:Null 甚至解释函数都抛出相同的exception。 请帮忙。 它是Hive发行版中的一个错误吗?

java.lang.IllegalArgumentException:错误的FS:,期望:hdfs:// localhost:9000

我正在尝试实现reduce side join,并使用mapfile reader查找分布式缓存但是在stderr中检查时它没有查找值,它显示以下错误,lookupfile文件已经存在于hdfs中,并且似乎正确加载进入缓存,如stdout中所示。 java.lang.IllegalArgumentException:Wrong FS:file:/ app / hadoop / tmp / mapred / local / taskTracker / distcache / -8118663285704962921_-1196516983_170706299 / localhost / input / delivery_status / DeliveryStatusCodes / data,expected:hdfs:// localhost:9000 org.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:390)org.apache.hadoop.hdfs.DistributedFileSystem.getPathName(DistributedFileSystem.java:140)org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus (DistributedFileSystem.java:554)org.apache.hadoop.fs.FileSystem.getLength(FileSystem.java:816)org.apache.hadoop.io.SequenceFile $ Reader。(SequenceFile.java:1479)org.apache .hadoop.io.SequenceFile $ Reader。(SequenceFile.java:1474)org.apache.hadoop.io.MapFile $ Reader.createDataFileReader(MapFile.java:302)at org.apache.hadoop.io.MapFile $ Reader。打开(MapFile.java:284)org.apache.hadoop.io.MapFile $ Reader。(MapFile.java:273)org.apache.hadoop.io.MapFile $ Reader。(MapFile.java:260)at org .apache.hadoop.io.MapFile $读卡器(MapFile.java: 253)在mr_poc.reducerrsj.initializeDepartmentsMap(reducerrsj.java:59)mr_poc.reducerrsj.setup(reducerrsj.java:42)atg.apache.hadoop.mapreduce.Reducer.run(Reducer.java:174)at org。位于org.apache.hadoop.mapred.Child $ 4.run的org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418)中的apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:649) […]

hadoop中的mapreduce距离计算

是否有使用hadoop map / reduce的距离计算实现。 我想计算一组给定点之间的距离。 寻找任何资源。 编辑 这是一个非常智能的解决方案。 我尝试了一些与第一种算法相似的方法,而且我几乎得到了我想要的东西。 我现在并不关心优化程序,但我的问题是dist(X,Y)函数无效。 当我得到减速器上的所有点时,我无法通过迭代器上的所有点并计算距离。 stackoverflow.com上的某个人告诉我,hadoop上的Iterator与普通的JAVA Iterator不同,我不确定。 但是,如果我能找到一种简单的方法来通过我的dist()函数上的迭代器,我可以使用你的第二个算法进行优化。 //This is your code and I am refering to that code too, just to make my point clear. map(x,y) { for i in 1:N #number of points emit(i, (x,y)) //i did exactly like this reduce (i, X) p1 = X[i] for […]

如何使用Java有效地读取Hadoop(HDFS)文件中的第一行?

我的Hadoop集群上有一个大的CSV文件。 该文件的第一行是“标题”行,由字段名称组成。 我想对这个标题行进行操作,但我不想处理整个文件。 另外,我的程序是用Java编写的,并使用Spark。 在Hadoop集群上只读取大型CSV文件的第一行的有效方法是什么?

为什么运行hadoop时数据节点会关闭?

我在VirtualBox上的ubuntu 11.0.4上安装了hadoop 1.0.4(与我的主机名相同),不知怎的,数据节点关闭,在日志文件中出现以下错误 /************************************************************ STARTUP_MSG: Starting DataNode STARTUP_MSG: host = VirtualBox/127.0.1.1 STARTUP_MSG: args = [] STARTUP_MSG: version = 1.0.4 STARTUP_MSG: build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-1.0 -r 1393290; compiled by ‘hortonfo’ on Wed Oct 3 05:13:58 UTC 2012 ************************************************************/ 2013-08-18 19:52:21,301 INFO org.apache.hadoop.metrics2.impl.MetricsConfig: loaded properties from hadoop-metrics2.properties 2013-08-18 19:52:21,394 INFO org.apache.hadoop.metrics2.impl.MetricsSourceAdapter: MBean for source MetricsSystem,sub=Stats registered. 2013-08-18 19:52:21,412 […]

在哪里可以看到从hadoop pig语句生成的mapreduce代码

我们都知道hadoop pig语句被转换成java mapreduce代码。 我想知道有什么办法可以看到pig语句生成的mapreduce代码吗?