中国大学MOOC: MapReduce采用策略，一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的分片，这些分片可以被多个Map任务并行处理。

2021-04-14

中国大学MOOC: MapReduce采用策略，一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的分片，这些分片可以被多个Map任务并行处理。

答案：

分而治之

举一反三

MapReduce采用“分而治之”策略，一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的分片，这些分片可以被多个Map任务并行处理
Split（分片）：在进行map计算之前， MapReduce会根据输入文件计算输入分片（input split），每个输入分片（input split）针对一个______ 任务，输入分片（input split）存储的并非数据本身，而是一个分片长度和一个记录数据的位置的数组。
关于Map以下说法正确的是? A: Map的输入是完整文件,输出是文件分片split B: Map完成之后直接进入Reduce,没有其他中间过程 C: 一个分片可以启动多个map任务 D: Map的输入是文件分片,输出是键值对
下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是( )。 A: FSDataInputStream扩展了DataInputStream以支持随机读 B: 为实现细粒度并行，输入分片(InputSplit)应该越小越好 C: 一台机器可能被指派从输入文件的任意位置开始处理一个分片 D: 输入分片是一种记录的逻辑划分，而数据块是对输入数据的物理分割
下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是（）. A: FSDataInputStream扩展了DataInputStream以支持随机读 B: 为实现细粒度并行，输入分片应该越小越好 C: 一台机器可能被指派从输入文件的任意位置开始处理一个分片 D: 输入分片是一种记录的逻辑划分，而HDFS数据块是对输入数据的物理分割

内容

0
以下关于MapReduce执行过程的描述正确的有（）。 A: Map任务的输入文件是保存在分布式文件系统中的。 B: Reduce任务的处理结果是保存在分布式文件系统中的。 C: Map任务处理得到的中间结果保存在本地存储中。 D: Map任务处理得到的中间结果保存在分布式文件系统中。
1
关于 MapReduce的描述错误的是() A: MapReduce框架会先排序 map任务的输出 B: 通常，作业的输入输出都会被存储在文件系统中 C: 通常计算节点和存储节点是同一节点 D: 一个 Task 通常会把输入集切分成若干独立的数据块
2
MapReduce的处理流程包含分片、Map阶段、、Reduce阶段。
3
MapReduce中的Map阶段,系统将数据拆分为若干个“分片”（split）。 A: 正确 B: 错误
4
大数据计算服务（MaxCompute，原ODPS）中的MapReduce是一种编程模型，用于大规模数据集的并行运算，它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。其中，两个主要阶段Map和Reduce相互配合，可以完成对海量数据的处理。关于这两个阶段的关系，说法正确的有（） A: 一个reduce的输入数据可能来自于多个map的输出 B: 一个MR处理可以不包括任何map C: 一个MR处理可以不包括任何reduce D: 一个map的输出结果可能会被分配到多个reduce上去

中国大学MOOC: MapReduce采用 策略，一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的分片，这些分片可以被多个Map任务并行处理。

举一反三

内容

中国大学MOOC: MapReduce采用策略，一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的分片，这些分片可以被多个Map任务并行处理。