简述Hadoop中分布式计算框架MapReduce的工作流程
MapReduce把对数据集的大规模操作,分发给一个主节点管理下的各分节点共同完成,MapReduce处理数据过程主要分成2个阶段:map阶段和reduce阶段,先执行map阶段,再执行reduce阶段。[br][/br]1) 在正式执行map函数前,需要对输入进行“分片”(就是将海量数据分成大概相等的“块”,hadoop的一个分片默认是64M),以便于多个map同时工作,每一个map任务处理一个“分片”。[br][/br]2) 分片完成后,分节点同时进行map工作。map函数要做的事情,相当于对数据进行“预处理”,对每条记录的输出以[key,value] pair的形式输出。[br][/br]3) 在进入reduce阶段之前,还要将各个map中相关的数据(key相同的数据)归结到一起,发往一个reducer。[br][/br]4) reduce阶段。相同的key的map输出会到达同一个reducer。reducer对key相同的多个value进行“reduce操作”,最后一个key的一串value经过reduce函数的作用后,变成了一个value。
举一反三
- 10、在Hadoop项目结构中,MapReduce指的是什么? A: 流计算框架 B: 分布式并行编程模型 C: Hadoop上的工作流管理系统 D: 提供分布式协调一致性服务
- 在hadoop项目结构中,mapReduce指的是什么: A: A:分布式并行编程模型 B: B:流计算框架 C: C:Hadoop上的工作流管理系统 D: D:提供分布式协调一致性服务
- MapReduce是Hadoop的( ) A: 核心计算框架 B: 核心存储框架 C: 分布式操作系统 D: 分布式处理系统
- Hadoop是最常见的大数据技术框架,Hadoop最核心的技术是HDFS(分布式文件系统)和MapReduce(分布式计算框架)。
- Hadoop两大核心组成部分是什么? A: 分布式文件系统HDFS B: 分布式协作服务Zookeeper C: 资源调度管理框架YARN D: 分布式计算框架MapReduce
内容
- 0
Hadoop两大核心组成部分是什么? A: 资源调度管理框架YARN B: 分布式文件系统HDFS C: 分布式协作服务Zookeepe D: 分布式计算框架MapReduce
- 1
下列属于大数据关键技术的是() A: Hadoop分布式存储和计算平台 B: HDFS分布式文件系统 C: MapReduce分布式计算框架 D: NoSQL数据库
- 2
Hadoop平台具有两大核心,一个是分布式文件系统HDFS,一个是分布式并行框架MapReduce
- 3
hadoop框架的最核心设计包含哪些组成部分() A: 分布式文件存储系统(HDFS) B: 分布式计算框架(MapReduce) C: 分布式资源调度系统(Yarn) D: 数据处理方法(DPW)
- 4
MapReduce是一个分布式计算框架。