Tag: yarn

当由不同用户提交时,Tez作业失败

配置具有Kerberos安全性的Hadoop-2.6.0 HA群集。 在不同用户的yarn-tez框架中使用tez-example-0.6.0.jar提交示例作业时,获取以下exception 例外 java.io.IOException: The ownership on the staging directory hdfs://clustername/tmp/staging is not as expected. It is owned by Kumar. The directory must be owned by the submitter TestUser or by TestUser 该目录具有完全权限,但仍然获得上述exception。 但是当在yarn-tez框架中使用mapreduce-examples-2.6.0.jar提交作业时,作业就完成了。 命令 yarn jar C:\Tez\tez-examples-0.6.0.jar orderedwordcount -Dmapreduce.framework.name=yarn-tez /user/Kumar/names /user/Kumar/names1 非常感谢帮助。

错误:java.lang.IllegalArgumentException:即使使用变通方法,比较方法也违反了其一般合同

我已经花了两天时间来缩短这个错误,即使我尝试了几个stackoverflowpost“-Djava.util.Arrays.useLegacyMergeSort = true”中建议的解决方法,但它也不起作用。 这是我的命令及其返回错误的详细信息: 命令: hadoop jar CloudBrush.jar -Djava.awt.headless=true -Djava.util.Arrays.useLegacyMergeSort=true -reads /Ec10k -asm Ec10k_Brush -k 21 -readlen 36 错误: Error: java.lang.IllegalArgumentException: Comparison method violates its general contract! at java.util.TimSort.mergeHi(TimSort.java:895) at java.util.TimSort.mergeAt(TimSort.java:512) at java.util.TimSort.mergeCollapse(TimSort.java:437) at java.util.TimSort.sort(TimSort.java:241) at java.util.Arrays.sort(Arrays.java:1512) at java.util.ArrayList.sort(ArrayList.java:1454) at java.util.Collections.sort(Collections.java:175) at Brush.VerifyOverlap$VerifyOverlapReducer.reduce(VerifyOverlap.java:252) at Brush.VerifyOverlap$VerifyOverlapReducer.reduce(VerifyOverlap.java:1) at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:444) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:392) at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:163) at java.security.AccessController.doPrivileged(Native Method) at […]

Spring Boot YARN无法在Hadoop上运行2.8.0客户端无法访问DataNode

我正在尝试运行Spring Boot YARN示例(Windows上的https://spring.io/guides/gs/yarn-basic/ )。 在application.yml我将fsUri和resourceManagerHost更改为指向我的VM的主机192.168… 但是,当我试图运行应用程序Exceprion出现时: DFSClient: Exception in createBlockOutputStream java.net.ConnectException: Connection timed out: no further information at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method) at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717) at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206) at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:531) at org.apache.hadoop.hdfs.DFSOutputStream.createSocketForPipeline(DFSOutputStream.java:1508) at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutputStream.java:1284) at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(DFSOutputStream.java:1237) at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:449) [2017-05-27 19:59:49.570] boot – 7728 INFO [Thread-5] — DFSClient: Abandoning BP-646365587-10.0.2.15-1495898351938:blk_1073741830_1006 [2017-05-27 19:59:49.602] boot – 7728 INFO [Thread-5] — DFSClient: Excluding […]

使用–jars的spark-submit yarn-cluster不起作用?

我试图通过以下命令向CDH纱线集群提交火花作业 我已经尝试了几种组合,但一切都行不通…我现在所有的poi jar都位于我的本地/ root,以及HDFS / user / root / lib,因此我尝试了以下 spark-submit –master yarn-cluster –class “ReadExcelSC” ./excel_sc.jar –jars /root/poi-3.12.jars, /root/poi-ooxml-3.12.jar, /root/poi-ooxml-schemas-3.12.jar spark-submit –master yarn-cluster –class “ReadExcelSC” ./excel_sc.jar –jars file:/root/poi-3.12.jars, file:/root/poi-ooxml-3.12.jar, file:/root/poi-ooxml-schemas-3.12.jar spark-submit –master yarn-cluster –class “ReadExcelSC” ./excel_sc.jar –jars hdfs://mynamenodeIP:8020/user/root/poi-3.12.jars,hdfs://mynamenodeIP:8020/user/root/poi-ooxml-3.12.jar,hdfs://mynamenodeIP:8020/user/root/poi-ooxml-schemas-3.12.jar 如何将jar传播到所有群集节点? 因为以上都没有工作,并且工作仍然以某种方式无法引用该类,因为我不断得到相同的错误: java.lang.NoClassDefFoundError: org/apache/poi/ss/usermodel/WorkbookFactory 相同的命令与“–master local”一起使用 ,没有指定–jars,因为我已将我的jar复制到/ opt / cloudera / parcels / CDH / lib / […]

Datanode守护程序未在Hadoop 2.5.0上运行

我在一台机器上设置Hadoop 2.5.0,我遇到的问题是没有运行的datanode,如jps命令的输出所示: $ jps 3404 Jps 2661 NodeManager 2606 ResourceManager 2484 NameNode 当我尝试手动运行它时我得到了这个: $HADOOP_HOME/sbin/hadoop-daemon.sh start datanode starting datanode, logging to /home/arbi/Programs/hadoop-2.5.0/logs/hadoop-arbi-datanode-ElOued.out 然后仍然没有,这里是hadoop-arbi-datanode-ElOued.out : ulimit -a for user arbi core file size (blocks, -c) 0 data seg size (kbytes, -d) unlimited scheduling priority (-e) 0 file size (blocks, -f) unlimited pending signals (-i) 15862 max locked […]

如何在spark-submit命令中指定要使用的java版本?

我想在远程服务器上的纱线群集上运行火花流应用程序。 默认的java版本是1.7,但我想为我的应用程序使用1.8,它也在服务器中,但不是默认值。 有没有办法通过spark-submit指定java 1.8的位置,这样我就不会遇到major.minor错误?

Spark中的并发作业执行

我使用了以下格式的输入数据: 0 1 2 3 4 5 … 14 Input Location: hdfs://localhost:9000/Input/datasource 我使用以下代码片段将RDD保存为使用多个线程的文本文件: package org.apache.spark.examples; import java.io.Serializable; import java.util.ArrayList; import java.util.Arrays; import java.util.Collections; import java.util.Comparator; import java.util.List; import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors; import org.apache.avro.ipc.specific.Person; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.Function; import org.apache.spark.api.java.function.Function2; import org.apache.spark.api.java.function.PairFunction; import org.apache.spark.sql.DataFrame; import org.apache.spark.sql.Row; import org.apache.spark.sql.RowFactory; import org.apache.spark.sql.SQLContext; […]

如何在map reduce程序中解析PDF文件?

我想在我的hadoop 2.2.0程序中解析PDF文件,我发现了这个 ,按照它的说法,直到现在,我有这三个类: PDFWordCount :包含map和reduce函数的主类。 (就像本机hadoop wordcount示例,但我使用的是PDFInputFormat类而不是TextInputFormat 。 PDFRecordReader extends RecordReader :这是主要的工作。 特别是我把initialize函数放在这里以获得更多插图。 public void initialize(InputSplit genericSplit, TaskAttemptContext context) throws IOException, InterruptedException { System.out.println(“initialize”); System.out.println(genericSplit.toString()); FileSplit split = (FileSplit) genericSplit; System.out.println(“filesplit convertion has been done”); final Path file = split.getPath(); Configuration conf = context.getConfiguration(); conf.getInt(“mapred.linerecordreader.maxlength”, Integer.MAX_VALUE); FileSystem fs = file.getFileSystem(conf); System.out.println(“fs has been opened”); start […]

CDH5.2:MR,无法初始化任何输出收集器

Cloudera CDH5.2快速启动VM Cloudera Manager显示所有节点state = GREEN 我在Eclipse上做了一个MR工作,包括Build Path中的所有相关cloudera jar:avro-1.7.6-cdh5.2.0.jar,avro-mapred-1.7.6-cdh5.2.0-hadoop2.jar,hadoop-common -2.5.0-cdh5.2.0.jar,hadoop-mapreduce-client-core-2.5.0-cdh5.2.0.jar 我做了以下工作 hadoop jar jproject1.jar avro00.AvroUserPrefCount -libjars ${LIBJARS} avro/00/in avro/00/out 我得到以下错误,是Java堆问题,任何评论? 先感谢您 14/11/14 01:02:40 INFO client.RMProxy: Connecting to ResourceManager at quickstart.cloudera/127.0.0.1:8032 14/11/14 01:02:43 INFO input.FileInputFormat: Total input paths to process : 1 14/11/14 01:02:43 INFO mapreduce.JobSubmitter: number of splits:1 14/11/14 01:02:44 INFO mapreduce.JobSubmitter: Submitting tokens for […]

使用hadoop和java命令执行map-reduce作业之间有什么区别

找到许多运行map-reduce程序的选项。 任何人都可以解释以下命令之间的差异。 如果有的话,会对Map减少工作产生什么影响。 java -jar MyMapReduce.jar [args] hadoop jar MyMapReduce.jar [args] yarn jar MyMapReduce.jar [args] 在这些命令中哪一个最好还是其他? 可以使用下面的命令使用Web服务8088(YARN)的端口在Web服务正常上使用Yarn和Job History(如显示Hadoop和yarn命令)显示有关作业的所有信息的配置吗? java -jar MyMapReduce.jar [args]