MapReduce采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片,这些分片可以被多个Map任务并行处理
举一反三
- 中国大学MOOC: MapReduce采用 策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片,这些分片可以被多个Map任务并行处理。
- Split(分片):在进行map计算之前, MapReduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个______ 任务,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组。
- 关于Map以下说法正确的是? A: Map的输入是完整文件,输出是文件分片split B: Map完成之后直接进入Reduce,没有其他中间过程 C: 一个分片可以启动多个map任务 D: Map的输入是文件分片,输出是键值对
- 下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是( )。 A: FSDataInputStream扩展了DataInputStream以支持随机读 B: 为实现细粒度并行,输入分片(InputSplit)应该越小越好 C: 一台机器可能被指派从输入文件的任意位置开始处理一个分片 D: 输入分片是一种记录的逻辑划分,而数据块是对输入数据的物理分割
- 下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是(). A: FSDataInputStream扩展了DataInputStream以支持随机读 B: 为实现细粒度并行,输入分片应该越小越好 C: 一台机器可能被指派从输入文件的任意位置开始处理一个分片 D: 输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割