Tag: hadoop

初始工作没有接受任何资源; 检查群集UI以确保工作人员已注册并具有足够的资源

我正在尝试从Eclipse运行spark示例并获得此一般错误: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources. Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources. 我的版本是spark-1.6.2-bin-hadoop2.6. 我使用shell中的./sbin/start-master.sh命令启动了spark,并将我的sparkConf设置为: SparkConf conf = new SparkConf().setAppName(“Simple Application”); conf.setMaster(“spark://My-Mac-mini.local:7077”); 我没有在这里带任何其他代码,因为我正在运行的任何示例都会弹出此错误。 该机器是Mac OSX,我很确定它有足够的资源来运行最简单的例子。 […]

除了修改hadoop-env.sh之外,如何在hadoop中指定系统属性?

我想在运行hadoop作业时设置系统属性(而不是hadoop属性)。 我发现设置系统属性并不容易。 即使我在shell中设置属性 export HADOOP_OPTS=”$HADOOP_OPTS:-Dproperty=value” 它仍然无法正常工作。 hadoop命令行的“-D”选项仅适用于Configuration,而不适用于系统属性。 所以“-D”选项也不起作用 有人有想法吗? 谢谢

Trunk无法编译,因为在Eclipse下使用Hadoop时libprotoc已经过时了

我正在关注“在Eclipse下使用Hadoop”并尝试运行 $ mvn install -DskipTests 过了一会儿,我收到一个错误: [错误]无法执行目标org.apache.hadoop:hadoop-maven-plugins:3.0.0-SNAPSHOT:项目上的protoc(compile-protoc)hadoop-common:org.apache.maven.plugin.MojoExecutionException:protoc version is ‘libprotoc 2.4.1’,预期版本为’2.5.0’ – > [帮助1] 它与本页报告的内容相同。 有谁知道如何解决它? 我该怎么做才能升级libprotoc?

如何在hadoop map-reduce作业中创建文件?

我搜索了网络,但我找到的只是一个声称可以完成的网站。 它没有说怎么样。

Hadoop:interval和JOIN

我是Hadoop的新手,我正在尝试加入两个数据源,其中键是间隔 (比如[date-begin / date-end])。 例如: 输入1: 20091001-20091002 A 20091011-20091104 B 20080111-20091103 C (…) 输入2: 20090902-20091003 D 20081015-20091204 E 20040011-20050101 F (…) 我想找到key1与key2重叠的所有记录。 有没有可能与hadoop? 我在哪里可以找到实施的例子? 谢谢。

可以迭代的ArrayList元素发生变化

所以我正在实现mapreduce工作,这意味着我正在处理键值对。 我有变量 Iterable values FreqDataWritable是一个包含信息片段的对象,但是现在我只关心它所拥有的一条信息,它是一个由getFilename()访问的String。 我有以下循环: ArrayList filenames = new ArrayList(); for(FreqDataWritable i : values) { filenames.add(i.getFilename()); } 现在,我想要做的就是在数组列表文件名中打印值。 for(int i = 0; i < filenames.size(); i++) { System.out.println(filenames.get(i)); } 但是,当我这样做时,文件名中的所有内容都是相同的。 唯一打印出的是多次打印的单个文件名。 我的原始代码比这更复杂,但我简化了它的帮助。 有人知道怎么修这个东西吗? 谢谢

apache zeppelin抛出NullPointerException错误

我是zeppelin的新手并试图在我的系统上设置zeppelin。 直到现在我已经完成了以下步骤: 从这里下载齐柏林飞艇 在我的系统环境变量中设置JAVA_HOME。 转到zeppelin-0.7.3-bin-all \ bin并运行zeppelin.cmd 能够在http:// localhost:8090上看到zeppelin-ui 当我试图将load data into table运行load data into table zeppelin tutotial – > Basic Features(spark)中提到的load data into table程序时,它会抛出以下错误 java.lang.NullPointerException at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:38) at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:33) at org.apache.zeppelin.spark.SparkInterpreter.createSparkContext_2(SparkInterpreter.java:398) at org.apache.zeppelin.spark.SparkInterpreter.createSparkContext(SparkInterpreter.java:387) at org.apache.zeppelin.spark.SparkInterpreter.getSparkContext(SparkInterpreter.java:146) at org.apache.zeppelin.spark.SparkInterpreter.open(SparkInterpreter.java:843) at org.apache.zeppelin.interpreter.LazyOpenInterpreter.open(LazyOpenInterpreter.java:70) at org.apache.zeppelin.interpreter.remote.RemoteInterpreterServer$InterpretJob.jobRun(RemoteInterpreterServer.java:491) at org.apache.zeppelin.scheduler.Job.run(Job.java:175) at org.apache.zeppelin.scheduler.FIFOScheduler$1.run(FIFOScheduler.java:139) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) at java.util.concurrent.FutureTask.run(FutureTask.java:266) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:180) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) at […]

如何使用java api直接发送hbase shell命令,如jdbc?

如何使用java api直接发送hbase shell命令 , 如jdbc ? public static void main(String args[]) { // get Connection to connect hbase Connection conn = ….; // hbase shell command String cmd = “get ‘t1’,’r1′”; Statement stmt = conn.createStatement(); ResultSet rs = stmt.executeQuery(cmd); while(rs.next()) { … } } 如果没有这个的java api,还有另一种方法来实现目标吗?

保存Hadoop中的Mapper输出的位置?

我有兴趣有效地管理Hadoop混洗流量并有效利用网络带宽。 为此,我想知道每个Datanode产生的混乱流量是多少? 洗牌流量只不过是映射器的输出。 那么这个映射器输出保存在哪里? 如何实时获取每个数据节点的映射器输出大小? 感谢您的帮助。 我已经创建了一个目录来存储这个mapper输出,如下所示。 mapred.local.dir /app/hadoop/tmp/myoutput 我看着 hduser@dn4:/app/hadoop/tmp/myoutput$ ls -lrt total 16 drwxr-xr-x 2 hduser hadoop 4096 Dec 12 10:50 tt_log_tmp drwx—— 3 hduser hadoop 4096 Dec 12 10:53 ttprivate drwxr-xr-x 3 hduser hadoop 4096 Dec 12 10:53 taskTracker drwxr-xr-x 4 hduser hadoop 4096 Dec 12 13:25 userlogs 当我运行mapreduce工作时,我无法在这里找到任何东西。 谢谢

在Hadoop的mapreduce框架中运行“Selenium Webdriver”,在地图步骤中冻结

几天前,我决定让selenium webdriver(第三方软件包)在hadoop的mapreduce框架中运行。 我遇到了一个问题。 地图步骤冻结在new FirefoxDriver(); 。 FirefoxDriver类位于名为selenium-server-standalone-2.38.0.jar的第三方jar中。 如果有人有经验或兴趣,我需要你的帮助! 一些细节: 问题详情 为了在命令行中运行代码,我使用“Xvfb”来停止Firefox图形界面。 然后我在开始时说的问题出现了。 我查看了tasktraker的日志,并在this.driver = new FirefoxDriver(ffprofile);找到代码冻结this.driver = new FirefoxDriver(ffprofile); 虽然代码已冻结,但firefox已经设置完毕,我使用ps -A | grep firefox检查 ps -A | grep firefox 环境: ubuntu 10.04 32bit; Hadoop的1.2.0; Mozilla Firefox 17.0.5; selenium – 服务器 – 独立-2.38.0.jar; xvfb的; 提示 (1)Hadoop以Pesudo分布式运行; (2)当我在Eclipse中运行代码时,每件事情都可以。火狐按计划弹出。(我最后会显示演示代码); (3)如果你运行到org.openqa.selenium.WebDriverException: Unable to bind to locking port 7054 within […]