Tag: hadoop

Mapreduce组合器

我有一个简单的mapreduce代码,包括mapper,reducer和combiner。 mapper的输出传递给组合器。 但是对于reducer而言,不是来自组合器的输出,而是传递mapper的输出。 请帮助 码: package Combiner; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.DoubleWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.Mapper.Context; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.util.GenericOptionsParser; public class AverageSalary { public static class Map extends Mapper { public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException […]

使用JDBC从Java连接到Hive

我正在尝试从Java连接到Hive服务器1.我在这个论坛上发现了一个问题,但它对我不起作用。 我正在使用此代码: import java.sql.SQLException; import java.sql.Connection; import java.sql.ResultSet; import java.sql.Statement; import java.sql.DriverManager; public class HiveJdbcClient { private static String driverName = “org.apache.hive.jdbc.HiveDriver”; /** * @param args * @throws SQLException */ public static void main(String[] args) throws SQLException { try { Class.forName(driverName); } catch (ClassNotFoundException e) { // TODO Auto-generated catch block e.printStackTrace(); System.exit(1); } //replace […]

Hadoop mapreduce:用于在MapReduce作业中链接映射器的驱动程序

我有mapreduce工作:我的代码Map类: public static class MapClass extends Mapper { @Override public void map(Text key, Text value, Context context) throws IOException, InterruptedException { } } 我想使用ChainMapper: 1. Job job = new Job(conf, “Job with chained tasks”); 2. job.setJarByClass(MapReduce.class); 3. job.setInputFormatClass(TextInputFormat.class); 4. job.setOutputFormatClass(TextOutputFormat.class); 5. FileInputFormat.setInputPaths(job, new Path(InputFile)); 6. FileOutputFormat.setOutputPath(job, new Path(OutputFile)); 7. JobConf map1 = new JobConf(false); 8. […]

为什么我们在Hadoop堆栈中需要ZooKeeper?

我是Hadoop / ZooKeeper的新手。 我无法理解将ZooKeeper与Hadoop一起使用的目的,是ZooKeeper在Hadoop中编写数据吗? 如果没有,那么我们为什么要使用ZooKeeper和Hadoop?

使用Java API从Hive获取表属性

我正在尝试使用java中的Metastore客户端从hive Metastore中获取表db,name,owner和hdfs位置等表属性。 我想我可以得到表数据库和名称好,但我无法弄清楚如何抓住像所有者和hdfs位置的东西。 可能吗? 我一直在搜索文档和互联网几个小时,没有骰子。

Oozie> Java动作>为什么属性oozie.launcher.mapred.child.java.opts不起作用

我正在使用Java动作在Oozie上工作。 Java操作应该使用Java选项-Xmx15g。 因此,我将属性oozie.mapreduce.map.memory.mb设置为25600(25G),以防需要额外的内存。 在这个简单的设置之后,我运行了Oozie作业,然后在Java运行时期间出现了OutofMemory(堆空间不足)错误。 因此,我根据链接在Java操作的属性节点中将oozie.launcher.mapred.child.java.opts设置为-Xmx15g: http ://downright-amazed.blogspot.fi/2012/02/configure-oozies -launcher-job.html 。 但我仍然得到相同的OutofMemory错误。 然后我尝试将-Xmx15g添加到Java操作节点内的节点java-opts。 这工作得很好,但如果是这样,地狱还有属性oozie.launcher.mapred.child.java.opts? 任何人都知道为什么会这样? 请给出一些评论为何如此。 提前致谢。 我真的觉得Oozie不是一个方便的工具。

使用saveAsTextFile的Spark NullPointerException

在尝试合并并保存RDD时,我得到了一个N​​PE。 代码在本地工作, 并在scala shell中的集群上工作,但在将其作为作业提交到集群时会引发错误。 我已经尝试使用take()打印输出以查看rdd是否包含一些空数据,但这会引发相同的错误 – 因为它在shell中正常工作会很痛苦。 我正在保存到HDFS并且在变量中有完整的url路径 – 在MLLib训练阶段,模型可以使用此方法保存。 任何想法非常感谢! Scala代码(整体预测function): //Load the Random Forest val rfModel = RandomForestModel.load(sc, modelPath) //Make the predictions – Here the label is the unique ID of the point val rfPreds = labDistVect.map(p => (p.label, rfModel.predict(p.features))) //Collect and save println(“Done Modelling, now saving preds”) val outP = rfPreds.coalesce(1,true).saveAsTextFile(outPreds) println(“Done […]

Hadoop ClassNotFoundException

我正在编写我的第一个Hadoop应用程序,但是我收到了一个错误。 我不太明白这个堆栈跟踪中的一些detials是什么意思。 这是一个ClassNotFoundException 。 我正在Ubuntu Linux v12.10,Eclipse 3.8.0,Java 1.6.0_24上构建它。 我通过从Apache站点下载并使用Ant构建Hadoop来安装Hadoop。 当我创建一份工作时,我的崩溃就在程序的第一行。 public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException { Job job = new Job(); <<== crashing here. Program [Java Application] com.sandbox.hadoop.Program at localhost:33878 Thread [main] (Suspended (exception ClassNotFoundException)) owns: Launcher$AppClassLoader (id=29) owns: Class (org.apache.hadoop.security.UserGroupInformation) (id=25) URLClassLoader$1.run() line: 217 AccessController.doPrivileged(PrivilegedExceptionAction, AccessControlContext) line: not available […]

如何在Hadoop MapReduce中将Object设置为Map输出的值?

在Hadoop MapReduce中,对于中间输出(由map()生成),我希望中间输出的值是以下对象。 MyObject{ date:Date balance:Double } 我该怎么做 我应该创建自己的可写类吗? 我是MapReduce的新手。 谢谢。

将数据复制到HDFS时createBlockOutputStream中的exception

在将数据复制到HDFS时,我收到以下警告消息。 我有6个节点集群在运行。 每次复制期间它都会忽略这两个节点并显示以下警告消息。 INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink as 192.168.226.136:50010 at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutputStream.java:1116) at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(DFSOutputStream.java:1039) at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:487) 13/11/04 05:02:15 INFO hdfs.DFSClient: Abandoning BP-603619794-127.0.0.1-1376359904614:blk_-7294477166306619719_1917 13/11/04 05:02:15 INFO hdfs.DFSClient: Excluding datanode 192.168.226.136:50010 Datanode日志 2014-02-07 04:22:01,953 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: IOException in offerService java.io.IOException: Failed on local exception: java.io.IOException: Connection reset by peer; Host Details […]