Tag: pyspark cloudera quickstart vm

如果在SparkAction中使用PySpark,Oozie作业将无法运行

我在Oozie中遇到过几个SparkAction作业的例子,其中大多数都是用Java编写的。 我编辑了一下并在Cloudera CDH Quickstart 5.4.0(使用Spark版本1.4.0)中运行该示例。 workflow.xml ${jobTracker} ${nameNode} ${master} ${mode} Spark-FileCopy org.apache.oozie.example.SparkFileCopy ${nameNode}/user/${wf:user()}/${examplesRoot}/apps/spark/lib/oozie-examples.jar ${nameNode}/user/${wf:user()}/${examplesRoot}/input-data/text/data.txt ${nameNode}/user/${wf:user()}/${examplesRoot}/output-data/spark Workflow failed, error message[${wf:errorMessage(wf:lastErrorNode())}] job.properties nameNode=hdfs://quickstart.cloudera:8020 jobTracker=quickstart.cloudera:8032 master=local[2] mode=client examplesRoot=examples oozie.use.system.libpath=true oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/apps/spark Oozie工作流示例(在Java中)能够完成并完成其任务。 我用Python / PySpark编写了一个spark-submit作业。 我尝试删除和jar my_pyspark_job.py 但是当我尝试运行Oozie-Spark作业时,我在日志中出错: Launcher ERROR, reason: Main class [org.apache.oozie.action.hadoop.SparkMain], exit code [2] 我想知道如果我使用Python / PySpark,我应该在和标签中放置什么?