Shuffle连接Map和Reduce两个阶段。 Map Task将数据写到本地磁盘,Reduce Task从每个Map Task上读取一份数据。
举一反三
- 以下关于MapReduce计算框架描述正确的是? A: JobTracker:Master节点,只有一个,管理所有作业,作业/任务的监控、错误处理等;将任务分解成一系列任务,并分派给TaskTracker。 B: TaskTracker:Slave节点,运行Map Task和Reduce Task;并与JobTracker交互,汇报任务状态。 C: Map Task:解析每条数据记录,传递给用户编写的map(),并执行,将输出结果写入本地磁盘(如果为map-only作业,直接写入HDFS)。 D: Reducer Task:从Map Task的执行结果中,远程读取输入数据,对数据进行排序,将数据按照分组传递给用户编写的reduce函数执行。
- Hadoop MapReduce计算的流程是________。 A: Map任务—Shuffle—Reduce任务 B: Map任务—Reduce任务—Shuffle C: Reduce任务—Map任务—Shuffle D: Shuffle—Map任务—Reduce任务
- 如果map输出的key是整数,现已设定两个reduce task,要求每个reduce task仅处理key为奇数或者偶数的键值对,代码中主要设计( )可实现该功能。 A: 分区 B: 排序 C: 组合 D: 分组
- MapReduce的三大阶段即是Map阶段→shuffle阶段→reduce阶段。( )
- 关于MapReduce原理,下面说法错误的是? A: 分为Map和Reduce两个阶段 B: Map阶段由一系列Map任务组成 C: Reduce阶段由一系列Reduce任务组成 D: Map阶段与Reduce阶段没有任何依赖关系