MapReduce（二级）排序/过滤 – 如何？

我有一个聊天室webapp的不同“区域”的时间戳值（并发用户）的日志文件，格式为“Timestamp; Zone; Value”。对于每个区域，每天每分钟存在一个值。

对于每个区域，我想列出每天的最大值，按此最大值排序desc

所以，一个输入文件

#timestamp; zone; value 2011-01-01 00:00:00; 1; 10 2011-01-01 00:00:00; 2; 22 2011-01-01 00:01:00; 1; 11 2011-01-01 00:01:00; 2; 21 2011-01-02 00:00:00; 1; 12 2011-01-02 00:00:00; 2; 20

应该为1区生产：

 2011-01-02 12 2011-01-01 11

对于2区：

 2011-01-01 22 2011-01-02 20

我该如何处理？恕我直言，我需要一个以上的M / R步骤。

到目前为止我实施的是：

收集文本键“YYYY-MM-DD / Zone”和IntWritable值“value”的映射器，以及
减速器，用于标识每个键的最大值（即每个区域每天）。

这导致文件像

 2011-01-01/1 11 2011-01-01/2 22 2011-01-02/1 12 2011-01-02/2 20

这是第二个M / R步骤的输入吗？如果是这样，我会把什么作为关键和价值？

我已经研究过“Hadoop – The Definitive Guide”中的“Secondary Sort”示例，但我不确定是否以及如何在此处应用它。

是否可以将M / R分成几个输出文件（每个区域一个）？

更新在考虑之后，我会尝试这样做：

使密钥成为zone-id和value的组合（使用IntPair？）
编写自定义KeyComparator和GroupComparator

您可以使用二级排序只使用一个MR。这是步骤

将键定义为zone，yyyy-mm-dd和值为区域的连接：yyyy-mm-dd：value正如我将解释的那样，您甚至不需要从映射器中发出任何值。 NullWritable足以满足价值
实现键比较器，使得键：yyyy-mm-dd键的一部分按升序排序，值部分按降序排序。这将确保对于给定区域的所有键：yyyy-mm-dd，组中的第一个键将具有最高值
根据键的区域和日期部分，即区域：yyyy-mm-dd，定义复合键的分区器和分组比较器。
在reducer输入中，您将获得一个密钥组的第一个密钥，该密钥组将包含区域，日期和该区域的最大值，日期组合。 reducer输入的值部分是NullWritable列表，可以忽略。

我不知道你需要两个map / reduce步骤 – 你当然可以用一个，只是你的结果是列表而不是单个条目。否则，是的，您将按区域拆分，然后按日期拆分。

我可能会按区域将其拆分，然后让每个区域按天返回最高元素的列表，因为此时减少将非常简单。要真正从另一个地图/缩小步骤中获益，您必须拥有一个非常大的数据集和许多机器才能分开 – 此时我可能会减少整个键。

使用复合键模式解决Map reduce中的二级排序，因此您可以创建类似（ZoneId，TImeStamp）的键，并且在reducer中，您将首先在时区上进行迭代，然后在时间戳上进行迭代，以便您可以轻松地评估每天的最大值。

MapReduce（二级）排序/过滤 – 如何？

JAVA _Home未设置在Hadoop中

Spring + Maven + Hadoop

Oozie> Java动作>为什么属性oozie.launcher.mapred.child.java.opts不起作用

除了修改hadoop-env.sh之外，如何在hadoop中指定系统属性？

如何将.txt / .csv文件转换为ORC格式

Mapreduce作业运行，并且有一个例外

记录MapReduce作业的标准做法

在Hadoop中传播自定义配置值

使用hadoop指定内存限制

相当于mongo的出局：减少hadoop中的选项