下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是().
A: FSDataInputStream扩展了DataInputStream以支持随机读
B: 为实现细粒度并行,输入分片应该越小越好
C: 一台机器可能被指派从输入文件的任意位置开始处理一个分片
D: 输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割
A: FSDataInputStream扩展了DataInputStream以支持随机读
B: 为实现细粒度并行,输入分片应该越小越好
C: 一台机器可能被指派从输入文件的任意位置开始处理一个分片
D: 输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割
B
举一反三
- 下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是( )。 A: FSDataInputStream扩展了DataInputStream以支持随机读 B: 为实现细粒度并行,输入分片(InputSplit)应该越小越好 C: 一台机器可能被指派从输入文件的任意位置开始处理一个分片 D: 输入分片是一种记录的逻辑划分,而数据块是对输入数据的物理分割
- Split(分片):在进行map计算之前, MapReduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个______ 任务,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组。
- MapReduce采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片,这些分片可以被多个Map任务并行处理
- 下面哪个针对MapReduce的说法是错误的? A: MapReduce是支持分布式机器学习算法的计算框架。 B: MapReduce的运行需要基础的分布式存储系统HDFS支持。 C: MapReduce可以对分布式的大数据分片进行并行的实时分析。 D: MapReduce上的数据分析属于数据并行计算类型。
- 中国大学MOOC: MapReduce采用 策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片,这些分片可以被多个Map任务并行处理。
内容
- 0
Hadoop的两大核心是HDFS和MapReduce,HDFS用来存储数据,MapReduce用来处理数据。
- 1
在数据库中,某个业务表中的数据量很大,急速膨胀,在这样的情况下,为了保持高的数据响应速度,根据数据的(1)原则,可以对数据表进行分片设计。一般有两种分片方法:(2)。 2() A: 逻辑分片和物理分片 B: 旋转分片和雪花分片 C: 平面分片和立体分片 D: 水平分片和垂直分片
- 2
关于Map以下说法正确的是? A: Map的输入是完整文件,输出是文件分片split B: Map完成之后直接进入Reduce,没有其他中间过程 C: 一个分片可以启动多个map任务 D: Map的输入是文件分片,输出是键值对
- 3
HDFS 以固定大小的block 为基本单位存储数据,而MapReduce的处理单位是split。
- 4
HDFS 以固定大小的block 为基本单位存储数据,而MapReduce的处理单位是split。 A: 正确 B: 错误