Tag: 水槽

我可以扩展Flume接收器以使其向多个通道写入不同的数据吗?

关于Flume数据流的上一个问题的后续问题 我想处理事件并进一步发送提取的数据。 我想接受大尺寸的活动,比如压缩的HTML> 5KB,解析它们并将许多纤细的消息(如页面中的url)放到另一个频道,还有一些页面指标到另一个。 由于解析页面是消耗资源的,我宁愿不将消息复制到不同的处理器来完成这些任务,这两个任务都需要解析html并在内存中构建DOM。 另外,如果可能的话,我想避免将解析器中的序列化DOM发送到指标计算器。 我可以扩展接收器并为每个传入事件产生多个事件到多个传出通道吗? 就像是 htmlChannel urlChannel HtmlPagesSource ————-> PageParser ————-> UrlConsumer html | urls | | metricsChannel ——————-> MetricsConsumer metrics

在java中查看新文件的文件夹的最佳API

我需要为新文件观看特定文件夹,每当新文件到达时,我需要对其中一个索引软件执行一些处理和处理数据。 我需要做的就是,观看文件夹,每当有新文件进来时,我都需要阅读它的内容。 Flume假脱机目录看起来很合适,但这是我正在考虑的挑战。 1)只读取一次文件,不应读取任何已读取的文件。 2)文件的完整性,例如:如果文件没有完全复制,可以说.staging或.tmp文件在那里,我不应该读它们。 3)输入文件可以是巨大的,它们是xmls。 因此,在拆分中读取文件对我的原因没有帮助。 我需要完整地读取文件并处理它们。 4)由于文件的大小可能很大,因此水槽似乎存在大文件的问题。 它能否符合我的要求。 或者我应该检查任何其他文件观察者。? 你能否建议最佳选择来执行文件观看。 水槽假脱机能做到这一切吗?