不断增加YARN中Spark应用程序的物理内存

我在YARN中运行Spark应用程序，有两个执行程序，Xms / Xmx为32 GB，spark.yarn.excutor.memoryOverhead为6 GB。

我看到应用程序的物理内存不断增加，最终被节点管理器杀死：

2015-07-25 15:07:05,354 WARN org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl: Container [pid=10508,containerID=container_1437828324746_0002_01_000003] is running beyond physical memory limits. Current usage: 38.0 GB of 38 GB physical memory used; 39.5 GB of 152 GB virtual memory used. Killing container. Dump of the process-tree for container_1437828324746_0002_01_000003 : |- PID PPID PGRPID SESSID CMD_NAME USER_MODE_TIME(MILLIS) SYSTEM_TIME(MILLIS) VMEM_USAGE(BYTES) RSSMEM_USAGE(PAGES) FULL_CMD_LINE |- 10508 9563 10508 10508 (bash) 0 0 9433088 314 /bin/bash -c /usr/java/default/bin/java -server -XX:OnOutOfMemoryError='kill %p' -Xms32768m -Xmx32768m -Dlog4j.configuration=log4j-executor.properties -XX:MetaspaceSize=512m -XX:+UseG1GC -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+PrintGCDetails -Xloggc:gc.log -XX:AdaptiveSizePolicyOutputInterval=1 -XX:+UseGCLogFileRotation -XX:GCLogFileSize=500M -XX:NumberOfGCLogFiles=1 -XX:MaxDirectMemorySize=3500M -XX:NewRatio=3 -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=36082 -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false -XX:NativeMemoryTracking=detail -XX:ReservedCodeCacheSize=100M -XX:MaxMetaspaceSize=512m -XX:CompressedClassSpaceSize=256m -Djava.io.tmpdir=/data/yarn/datanode/nm-local-dir/usercache/admin/appcache/application_1437828324746_0002/container_1437828324746_0002_01_000003/tmp '-Dspark.driver.port=43354' -Dspark.yarn.app.container.log.dir=/opt/hadoop/logs/userlogs/application_1437828324746_0002/container_1437828324746_0002_01_000003 org.apache.spark.executor.CoarseGrainedExecutorBackend akka.tcp://sparkDriver@nn1:43354/user/CoarseGrainedScheduler 1 dn3 6 application_1437828324746_0002 1> /opt/hadoop/logs/userlogs/application_1437828324746_0002/container_1437828324746_0002_01_000003/stdout 2> /opt/hadoop/logs/userlogs/application_1437828324746_0002/container_1437828324746_0002_01_000003/stderr

我用YARN的参数“yarn.nodemanager.pmem-check-enabled”进行了调整，发现物理内存使用量已经达到40 GB。

我检查了/proc/pid/smaps的总RSS，它与Yarn报告的物理内存值相同，并在top命令中看到。

我检查了堆不是问题，但是在堆/本机内存中有所增加。我使用像Visual VM这样的工具，但没有找到任何增加的东西。 MaxDirectMmeory也没有超过600 MB。活动线程的峰值数为70-80，线程堆栈大小不超过100 MB。 MetaspaceSize大约60-70 MB。

仅供参考，我使用Spark 1.2和Hadoop 2.4.0，我的Spark应用程序基于Spark SQL，它是一个HDFS读/写密集型应用程序，并在Spark SQL的内存缓存中缓存数据。

我应该在哪里调试内存泄漏或者是否已经存在工具？

最后我能摆脱这个问题。问题是在Spark SQL的镶木地板写入路径中创建的压缩器没有得到回收，因此，我的执行者正在为每个镶木地板写入文件创建一个全新的压缩器（来自本机内存），从而耗尽了物理内存限制。

我在Parquet Jira中打开了以下错误，并为此提出了PR： –

https://issues.apache.org/jira/browse/PARQUET-353

这解决了我的内存问题。

PS – 您只会在Parquet写密集型应用程序中看到此问题。

不断增加YARN中Spark应用程序的物理内存

无法执行超过火花作业“初始作业未接受任何资源”

从Apache Spark SQL中的用户定义聚合函数（UDAF）返回多个数组

如何在Spark RDD（Java）中通过索引获取元素

Spark 2.0.0 Arrays.asList无法正常工作 – 不兼容的类型

TaskSchedulerImpl：初始作业未接受任何资源;

运行apache spark job时，任务不可序列化exception

在Java中使用foreachActive for spark Vector

无法使用Java连接到HBase

为什么启动StreamingContext失败并出现“IllegalArgumentException：要求失败：没有注册输出操作，所以无需执行”？

多节点hadoop集群中的Apache Spark Sql问题