在Spark Web UI中看不到完成的作业
我正在使用./bin/spark-submit
来运行我的Spark工作。 它运行正常,但打开Spark Web UI,我无法在完成列表中看到工作。
./bin/spark-submit --name "myapp" --master local --conf "spark.master=spark://fahad:7077" --class com.apptest.App ~/app-0.0.1-SNAPSHOT.jar
注意:Spark版本2.0.1,运行1个工作程序, localhost:8080
上的主UI localhost:8080
,worker和master都是从./sbin/start-*.sh
脚本运行的。
有两种不同的UI,常规的Spark UI和Spark History Server。
在完成作业后显示作业的是历史服务器。
http://spark.apache.org/docs/latest/monitoring.html
他们在文档中解释了您需要通过运行来启动它:
./sbin/start-history-server.sh
默认情况下,这将在http:// server-url:18080创建一个Web界面,列出未完成和已完成的应用程序和尝试。
使用文件系统提供程序类时(请参阅下面的spark.history.provider),必须在spark.history.fs.logDirectory配置选项中提供基本日志记录目录,并且应包含每个代表应用程序事件日志的子目录。
必须将spark作业本身配置为记录事件,并将它们记录到同一个共享的可写目录中。 例如,如果服务器配置了hdfs:// namenode / shared / spark-logs的日志目录,那么客户端选项将是:
spark.eventLog.enabled true spark.eventLog.dir hdfs:// namenode / shared / spark-logs
- 处理Spark Scala中的微秒
- Apache Spark:在Java中有效地使用mapPartitions
- 是否可以在Apache Spark中创建嵌套的RDD?
- 本地类不兼容exception:从IDE运行spark standalone时
- 如何使用纯Java生成Parquet文件(包括日期和小数类型)并上传到S3 (无HDFS)
- 为什么Spark在本地模式下失败并且“无法获得broadcast_0的broadcast_0_piece0”?
- 无法使用Java连接到HBase
- 如何在GroupBy操作后从spark DataFrame列中收集字符串列表?
- Spark – foreach Vs foreachPartitions何时使用什么?