中国大学MOOC: MapReduce采用 策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片,这些分片可以被多个Map任务并行处理。
分而治之
举一反三
- MapReduce采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片,这些分片可以被多个Map任务并行处理
- Split(分片):在进行map计算之前, MapReduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个______ 任务,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组。
- 关于Map以下说法正确的是? A: Map的输入是完整文件,输出是文件分片split B: Map完成之后直接进入Reduce,没有其他中间过程 C: 一个分片可以启动多个map任务 D: Map的输入是文件分片,输出是键值对
- 下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是( )。 A: FSDataInputStream扩展了DataInputStream以支持随机读 B: 为实现细粒度并行,输入分片(InputSplit)应该越小越好 C: 一台机器可能被指派从输入文件的任意位置开始处理一个分片 D: 输入分片是一种记录的逻辑划分,而数据块是对输入数据的物理分割
- 下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是(). A: FSDataInputStream扩展了DataInputStream以支持随机读 B: 为实现细粒度并行,输入分片应该越小越好 C: 一台机器可能被指派从输入文件的任意位置开始处理一个分片 D: 输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割
内容
- 0
以下关于MapReduce执行过程的描述正确的有()。 A: Map任务的输入文件是保存在分布式文件系统中的。 B: Reduce任务的处理结果是保存在分布式文件系统中的。 C: Map任务处理得到的中间结果保存在本地存储中。 D: Map任务处理得到的中间结果保存在分布式文件系统中。
- 1
关于 MapReduce的描述错误的是() A: MapReduce框架会先排序 map任务的输出 B: 通常,作业的输入输出都会被存储在文件系统中 C: 通常计算节点和存储节点是同一节点 D: 一个 Task 通常会把输入集切分成若干独立的数据块
- 2
MapReduce的处理流程包含分片、Map阶段、 、Reduce阶段。
- 3
MapReduce中的Map阶段,系统将数据拆分为若干个“分片”(split)。 A: 正确 B: 错误
- 4
大数据计算服务(MaxCompute,原ODPS)中的MapReduce是一种编程模型,用于大规模数据集的并行运算,它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。其中,两个主要阶段Map和Reduce相互配合,可以完成对海量数据的处理。关于这两个阶段的关系,说法正确的有() A: 一个reduce的输入数据可能来自于多个map的输出 B: 一个MR处理可以不包括任何map C: 一个MR处理可以不包括任何reduce D: 一个map的输出结果可能会被分配到多个reduce上去