Tag: hadoop

Mapreduce组合器: 我有一个简单的mapreduce代码，包括mapper，reducer和combiner。 mapper的输出传递给组合器。但是对于reducer而言，不是来自组合器的输出，而是传递mapper的输出。请帮助码： package Combiner; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.DoubleWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.Mapper.Context; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.util.GenericOptionsParser; public class AverageSalary { public static class Map extends Mapper { public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException […]

使用JDBC从Java连接到Hive: 我正在尝试从Java连接到Hive服务器1.我在这个论坛上发现了一个问题，但它对我不起作用。我正在使用此代码： import java.sql.SQLException; import java.sql.Connection; import java.sql.ResultSet; import java.sql.Statement; import java.sql.DriverManager; public class HiveJdbcClient { private static String driverName = “org.apache.hive.jdbc.HiveDriver”; /** * @param args * @throws SQLException */ public static void main(String[] args) throws SQLException { try { Class.forName(driverName); } catch (ClassNotFoundException e) { // TODO Auto-generated catch block e.printStackTrace(); System.exit(1); } //replace […]

Hadoop mapreduce：用于在MapReduce作业中链接映射器的驱动程序: 我有mapreduce工作：我的代码Map类： public static class MapClass extends Mapper { @Override public void map(Text key, Text value, Context context) throws IOException, InterruptedException { } } 我想使用ChainMapper： 1. Job job = new Job(conf, “Job with chained tasks”); 2. job.setJarByClass(MapReduce.class); 3. job.setInputFormatClass(TextInputFormat.class); 4. job.setOutputFormatClass(TextOutputFormat.class); 5. FileInputFormat.setInputPaths(job, new Path(InputFile)); 6. FileOutputFormat.setOutputPath(job, new Path(OutputFile)); 7. JobConf map1 = new JobConf(false); 8. […]

为什么我们在Hadoop堆栈中需要ZooKeeper？: 我是Hadoop / ZooKeeper的新手。我无法理解将ZooKeeper与Hadoop一起使用的目的，是ZooKeeper在Hadoop中编写数据吗？如果没有，那么我们为什么要使用ZooKeeper和Hadoop？

使用Java API从Hive获取表属性: 我正在尝试使用java中的Metastore客户端从hive Metastore中获取表db，name，owner和hdfs位置等表属性。我想我可以得到表数据库和名称好，但我无法弄清楚如何抓住像所有者和hdfs位置的东西。可能吗？我一直在搜索文档和互联网几个小时，没有骰子。

Oozie> Java动作>为什么属性oozie.launcher.mapred.child.java.opts不起作用: 我正在使用Java动作在Oozie上工作。 Java操作应该使用Java选项-Xmx15g。因此，我将属性oozie.mapreduce.map.memory.mb设置为25600（25G），以防需要额外的内存。在这个简单的设置之后，我运行了Oozie作业，然后在Java运行时期间出现了OutofMemory（堆空间不足）错误。因此，我根据链接在Java操作的属性节点中将oozie.launcher.mapred.child.java.opts设置为-Xmx15g： http ：//downright-amazed.blogspot.fi/2012/02/configure-oozies -launcher-job.html 。但我仍然得到相同的OutofMemory错误。然后我尝试将-Xmx15g添加到Java操作节点内的节点java-opts。这工作得很好，但如果是这样，地狱还有属性oozie.launcher.mapred.child.java.opts？任何人都知道为什么会这样？请给出一些评论为何如此。提前致谢。我真的觉得Oozie不是一个方便的工具。

使用saveAsTextFile的Spark NullPointerException: 在尝试合并并保存RDD时，我得到了一个NPE。代码在本地工作，并在scala shell中的集群上工作，但在将其作为作业提交到集群时会引发错误。我已经尝试使用take（）打印输出以查看rdd是否包含一些空数据，但这会引发相同的错误 – 因为它在shell中正常工作会很痛苦。我正在保存到HDFS并且在变量中有完整的url路径 – 在MLLib训练阶段，模型可以使用此方法保存。任何想法非常感谢！ Scala代码（整体预测function）： //Load the Random Forest val rfModel = RandomForestModel.load(sc, modelPath) //Make the predictions – Here the label is the unique ID of the point val rfPreds = labDistVect.map(p => (p.label, rfModel.predict(p.features))) //Collect and save println(“Done Modelling, now saving preds”) val outP = rfPreds.coalesce(1,true).saveAsTextFile(outPreds) println(“Done […]

Hadoop ClassNotFoundException: 我正在编写我的第一个Hadoop应用程序，但是我收到了一个错误。我不太明白这个堆栈跟踪中的一些detials是什么意思。这是一个ClassNotFoundException 。我正在Ubuntu Linux v12.10，Eclipse 3.8.0，Java 1.6.0_24上构建它。我通过从Apache站点下载并使用Ant构建Hadoop来安装Hadoop。当我创建一份工作时，我的崩溃就在程序的第一行。 public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException { Job job = new Job(); <<== crashing here. Program [Java Application] com.sandbox.hadoop.Program at localhost:33878 Thread [main] (Suspended (exception ClassNotFoundException)) owns: Launcher$AppClassLoader (id=29) owns: Class (org.apache.hadoop.security.UserGroupInformation) (id=25) URLClassLoader$1.run() line: 217 AccessController.doPrivileged(PrivilegedExceptionAction, AccessControlContext) line: not available […]

如何在Hadoop MapReduce中将Object设置为Map输出的值？: 在Hadoop MapReduce中，对于中间输出（由map（）生成），我希望中间输出的值是以下对象。 MyObject{ date:Date balance:Double } 我该怎么做我应该创建自己的可写类吗？我是MapReduce的新手。谢谢。

将数据复制到HDFS时createBlockOutputStream中的exception: 在将数据复制到HDFS时，我收到以下警告消息。我有6个节点集群在运行。每次复制期间它都会忽略这两个节点并显示以下警告消息。 INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink as 192.168.226.136:50010 at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.createBlockOutputStream(DFSOutputStream.java:1116) at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.nextBlockOutputStream(DFSOutputStream.java:1039) at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:487) 13/11/04 05:02:15 INFO hdfs.DFSClient: Abandoning BP-603619794-127.0.0.1-1376359904614:blk_-7294477166306619719_1917 13/11/04 05:02:15 INFO hdfs.DFSClient: Excluding datanode 192.168.226.136:50010 Datanode日志 2014-02-07 04:22:01,953 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: IOException in offerService java.io.IOException: Failed on local exception: java.io.IOException: Connection reset by peer; Host Details […]