Tag: hadoop

初始工作没有接受任何资源; 检查群集UI以确保工作人员已注册并具有足够的资源: 我正在尝试从Eclipse运行spark示例并获得此一般错误： Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources. Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources. 我的版本是spark-1.6.2-bin-hadoop2.6. 我使用shell中的./sbin/start-master.sh命令启动了spark，并将我的sparkConf设置为： SparkConf conf = new SparkConf().setAppName(“Simple Application”); conf.setMaster(“spark://My-Mac-mini.local:7077”); 我没有在这里带任何其他代码，因为我正在运行的任何示例都会弹出此错误。该机器是Mac OSX，我很确定它有足够的资源来运行最简单的例子。 […]

除了修改hadoop-env.sh之外，如何在hadoop中指定系统属性？: 我想在运行hadoop作业时设置系统属性（而不是hadoop属性）。我发现设置系统属性并不容易。即使我在shell中设置属性 export HADOOP_OPTS=”$HADOOP_OPTS:-Dproperty=value” 它仍然无法正常工作。 hadoop命令行的“-D”选项仅适用于Configuration，而不适用于系统属性。所以“-D”选项也不起作用有人有想法吗？谢谢

Trunk无法编译，因为在Eclipse下使用Hadoop时libprotoc已经过时了: 我正在关注“在Eclipse下使用Hadoop”并尝试运行 $ mvn install -DskipTests 过了一会儿，我收到一个错误： [错误]无法执行目标org.apache.hadoop：hadoop-maven-plugins：3.0.0-SNAPSHOT：项目上的protoc（compile-protoc）hadoop-common：org.apache.maven.plugin.MojoExecutionException：protoc version is ‘libprotoc 2.4.1’，预期版本为’2.5.0’ – > [帮助1] 它与本页报告的内容相同。有谁知道如何解决它？我该怎么做才能升级libprotoc？

如何在hadoop map-reduce作业中创建文件？: 我搜索了网络，但我找到的只是一个声称可以完成的网站。它没有说怎么样。

Hadoop：interval和JOIN: 我是Hadoop的新手，我正在尝试加入两个数据源，其中键是间隔（比如[date-begin / date-end]）。例如：输入1： 20091001-20091002 A 20091011-20091104 B 20080111-20091103 C (…) 输入2： 20090902-20091003 D 20081015-20091204 E 20040011-20050101 F (…) 我想找到key1与key2重叠的所有记录。有没有可能与hadoop？我在哪里可以找到实施的例子？谢谢。

可以迭代的ArrayList元素发生变化: 所以我正在实现mapreduce工作，这意味着我正在处理键值对。我有变量 Iterable values FreqDataWritable是一个包含信息片段的对象，但是现在我只关心它所拥有的一条信息，它是一个由getFilename（）访问的String。我有以下循环： ArrayList filenames = new ArrayList(); for(FreqDataWritable i : values) { filenames.add(i.getFilename()); } 现在，我想要做的就是在数组列表文件名中打印值。 for(int i = 0; i < filenames.size(); i++) { System.out.println(filenames.get(i)); } 但是，当我这样做时，文件名中的所有内容都是相同的。唯一打印出的是多次打印的单个文件名。我的原始代码比这更复杂，但我简化了它的帮助。有人知道怎么修这个东西吗？谢谢

apache zeppelin抛出NullPointerException错误: 我是zeppelin的新手并试图在我的系统上设置zeppelin。直到现在我已经完成了以下步骤：从这里下载齐柏林飞艇在我的系统环境变量中设置JAVA_HOME。转到zeppelin-0.7.3-bin-all \ bin并运行zeppelin.cmd 能够在http：// localhost：8090上看到zeppelin-ui 当我试图将load data into table运行load data into table zeppelin tutotial – > Basic Features（spark）中提到的load data into table程序时，它会抛出以下错误 java.lang.NullPointerException at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:38) at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:33) at org.apache.zeppelin.spark.SparkInterpreter.createSparkContext_2(SparkInterpreter.java:398) at org.apache.zeppelin.spark.SparkInterpreter.createSparkContext(SparkInterpreter.java:387) at org.apache.zeppelin.spark.SparkInterpreter.getSparkContext(SparkInterpreter.java:146) at org.apache.zeppelin.spark.SparkInterpreter.open(SparkInterpreter.java:843) at org.apache.zeppelin.interpreter.LazyOpenInterpreter.open(LazyOpenInterpreter.java:70) at org.apache.zeppelin.interpreter.remote.RemoteInterpreterServer$InterpretJob.jobRun(RemoteInterpreterServer.java:491) at org.apache.zeppelin.scheduler.Job.run(Job.java:175) at org.apache.zeppelin.scheduler.FIFOScheduler$1.run(FIFOScheduler.java:139) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) at java.util.concurrent.FutureTask.run(FutureTask.java:266) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:180) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) at […]

如何使用java api直接发送hbase shell命令，如jdbc？: 如何使用java api直接发送hbase shell命令，如jdbc ？ public static void main(String args[]) { // get Connection to connect hbase Connection conn = ….; // hbase shell command String cmd = “get ‘t1’,’r1′”; Statement stmt = conn.createStatement(); ResultSet rs = stmt.executeQuery(cmd); while(rs.next()) { … } } 如果没有这个的java api，还有另一种方法来实现目标吗？

保存Hadoop中的Mapper输出的位置？: 我有兴趣有效地管理Hadoop混洗流量并有效利用网络带宽。为此，我想知道每个Datanode产生的混乱流量是多少？洗牌流量只不过是映射器的输出。那么这个映射器输出保存在哪里？如何实时获取每个数据节点的映射器输出大小？感谢您的帮助。我已经创建了一个目录来存储这个mapper输出，如下所示。 mapred.local.dir /app/hadoop/tmp/myoutput 我看着 hduser@dn4:/app/hadoop/tmp/myoutput$ ls -lrt total 16 drwxr-xr-x 2 hduser hadoop 4096 Dec 12 10:50 tt_log_tmp drwx—— 3 hduser hadoop 4096 Dec 12 10:53 ttprivate drwxr-xr-x 3 hduser hadoop 4096 Dec 12 10:53 taskTracker drwxr-xr-x 4 hduser hadoop 4096 Dec 12 13:25 userlogs 当我运行mapreduce工作时，我无法在这里找到任何东西。谢谢

在Hadoop的mapreduce框架中运行“Selenium Webdriver”，在地图步骤中冻结: 几天前，我决定让selenium webdriver（第三方软件包）在hadoop的mapreduce框架中运行。我遇到了一个问题。地图步骤冻结在new FirefoxDriver(); 。 FirefoxDriver类位于名为selenium-server-standalone-2.38.0.jar的第三方jar中。如果有人有经验或兴趣，我需要你的帮助！一些细节：问题详情为了在命令行中运行代码，我使用“Xvfb”来停止Firefox图形界面。然后我在开始时说的问题出现了。我查看了tasktraker的日志，并在this.driver = new FirefoxDriver(ffprofile);找到代码冻结this.driver = new FirefoxDriver(ffprofile); 虽然代码已冻结，但firefox已经设置完毕，我使用ps -A | grep firefox检查 ps -A | grep firefox 环境： ubuntu 10.04 32bit; Hadoop的1.2.0; Mozilla Firefox 17.0.5; selenium – 服务器 – 独立-2.38.0.jar; xvfb的; 提示（1）Hadoop以Pesudo分布式运行; （2）当我在Eclipse中运行代码时，每件事情都可以。火狐按计划弹出。（我最后会显示演示代码）; （3）如果你运行到org.openqa.selenium.WebDriverException: Unable to bind to locking port 7054 within […]