Tag: hortonworks sandbox

Apache NiFi – OutOfMemory错误:SplitText处理器超出了GC开销限制

我正在尝试使用NiFi使用HDF 1.2处理大型CSV文件(每个可能有数十亿条记录)。 我实现了我的流程,一切都适用于小文件。 问题是如果我尝试将文件大小推到100MB(1M记录),我会得到一个java.lang.OutOfMemoryError: GC overhead limit exceeded从负责将文件拆分为单个记录的SplitText处理器java.lang.OutOfMemoryError: GC overhead limit exceeded 。 我已经搜索过了,它基本上意味着垃圾收集器执行的时间太长而没有获得太多的堆空间。 我希望这意味着太多的流文件生成得太快了。 我怎么解决这个问题? 我已经尝试改变nifi关于最大堆空间和其他与内存相关的属性的配置,但似乎没有任何效果。 现在我添加了一个行数为1K的中间SplitText ,这可以让我避免错误,但我不认为这是一个可靠的解决方案,当传入的文件大小可能远远超过这个时,我担心我将从处理器获得相同的行为。 欢迎任何建议! 谢谢