• 2022-06-03
    Spark RDD的运行过程主要包括()
    A: 从磁盘读入数据。
    B: 创建RDD对象。
    C: SparkContext负责计算RDD之间的依赖关系,构建DAG。
    D: DAGScheduler负责把DAG图分解成多个阶段,每个阶段中包含了多个任务,每个任务会被任务任务调度器分发给各个工作节点(Worker Node)上的Executor去执行。
  • B,C,D

    内容

    • 0

      ______ 是构建在 Spark上的图计算模型,它利用spark框架提供的内存级存RDD、DAG和基于数据依赖的容错等特性,实现高效健壮的图计算框架

    • 1

      在Spark中,关于各种概念之间的相互关系的描述正确的有() A: 一个应用由一个任务控制点(Driver)和若干个作业(Job)构成。 B: 一个作业由多个阶段(Stage)构成。 C: 一个阶段由多个任务组成。 D: 执行一个应用时,任务控制节点会向集群管理器申请资源,启动Executor,并向Executor发送应用程序代码和文件,然后在Executor执行任务。 E: Executor上的任务执行完成后,执行结果会返回给任务控制节点,或者写入到HDFS或者其他数据库中。

    • 2

      窄依赖表现为( )。(注意:本题为多选题) A: 一个父RDD对应一个子RDD B: 一个父RDD对应多个子RDD C: 多个父RDD对应一个子RDD D: 多个父RDD对应多个子RDD

    • 3

      以下关于spark中的RDD说法正确的是() A: RDD(ResilientDistributedDataset)叫做分布式数据集,是spark中最基本的数据抽象 B: RDD是一个不可变的集合。 C: RDD是可以分成多个分区的,里面的元素可以并行计算的集合。 D: RDD数据本地性,数据向计算靠拢。

    • 4

      ( )是构建在Spark上的图计算模型,它利用Spark框架提供的内存缓存RDD、DAG和基于数据依赖的容错等特性,实现高效健壮的图计算框架。 A: Data Manager B: MLlib C: Spark Runtime D: GraphX