• 2022-06-16
    简述Hadoop中分布式计算框架MapReduce的工作流程
  • MapReduce把对数据集的大规模操作,分发给一个主节点管理下的各分节点共同完成,MapReduce处理数据过程主要分成2个阶段:map阶段和reduce阶段,先执行map阶段,再执行reduce阶段。[br][/br]1) 在正式执行map函数前,需要对输入进行“分片”(就是将海量数据分成大概相等的“块”,hadoop的一个分片默认是64M),以便于多个map同时工作,每一个map任务处理一个“分片”。[br][/br]2) 分片完成后,分节点同时进行map工作。map函数要做的事情,相当于对数据进行“预处理”,对每条记录的输出以[key,value] pair的形式输出。[br][/br]3) 在进入reduce阶段之前,还要将各个map中相关的数据(key相同的数据)归结到一起,发往一个reducer。[br][/br]4) reduce阶段。相同的key的map输出会到达同一个reducer。reducer对key相同的多个value进行“reduce操作”,最后一个key的一串value经过reduce函数的作用后,变成了一个value。

    内容

    • 0

      Hadoop两大核心组成部分是什么? A: 资源调度管理框架YARN B: 分布式文件系统HDFS C: 分布式协作服务Zookeepe D: 分布式计算框架MapReduce

    • 1

      下列属于大数据关键技术的是() A: Hadoop分布式存储和计算平台 B: HDFS分布式文件系统 C: MapReduce分布式计算框架 D: NoSQL数据库

    • 2

      Hadoop平台具有两大核心,一个是分布式文件系统HDFS,一个是分布式并行框架MapReduce

    • 3

      hadoop框架的最核心设计包含哪些组成部分() A: 分布式文件存储系统(HDFS) B: 分布式计算框架(MapReduce) C: 分布式资源调度系统(Yarn) D: 数据处理方法(DPW)

    • 4

      MapReduce是一个分布式计算框架。