相当于mongo的出局:减少hadoop中的选项

我正在重写MongoDB map reduce作业以改为使用Hadoop(使用mongo-hadoop连接器),但是当我将两个数据集映射到同一个集合时,它会覆盖值而不是使用它们

{reduce:“collectionName”} – 如果对于结果集和旧集合中的给定键存在文档,则将对这两个值执行reduce操作(使用指定的reduce函数),结果将写入输出集合。 如果提供了finalize函数,那么也将在reduce之后运行。

如何使用mongo-hadoop?

Mongo-Hadoop目前仅支持覆盖目标集合。 但是,可以将多个作业链接在一起,允许您将MR输出发送到也可以从旧集合中读取的新作业。

对于任何寻找此问题的人来说,很快就会支持多种输入。

有变化的分支位于此处 。 它做得很好,我们在生产中使用它。