Spark RDD的运行过程主要包括()
A: 从磁盘读入数据。
B: 创建RDD对象。
C: SparkContext负责计算RDD之间的依赖关系,构建DAG。
D: DAGScheduler负责把DAG图分解成多个阶段,每个阶段中包含了多个任务,每个任务会被任务任务调度器分发给各个工作节点(Worker Node)上的Executor去执行。
A: 从磁盘读入数据。
B: 创建RDD对象。
C: SparkContext负责计算RDD之间的依赖关系,构建DAG。
D: DAGScheduler负责把DAG图分解成多个阶段,每个阶段中包含了多个任务,每个任务会被任务任务调度器分发给各个工作节点(Worker Node)上的Executor去执行。
B,C,D
举一反三
- Spark使用基于_______的任务调度执行机制。 A: RDG B: DAG C: GCC D: RDD
- Spark的任务调度执行机制是以什么为基础的( )。 A: 内存计算 B: 数据流 C: RDD D: DAG
- 下列关于RDD的叙述错误的是 A: DAG图反应了RDD之间的依赖关系 B: RDD转换过程的中间结果保存在磁盘中 C: 不同RDD之间的转换容易API编程实现 D: DAG图反应了RDD的血缘关系
- 以下对Spark中RDD叙述错误的是() A: RDD是可读、写的 B: RDD是基于内存的高度首先的数据共享模型 C: RDD是基于磁盘的高度首先的数据共享模型 D: RDD之间的依赖关系分为宽依赖与窄依赖
- Spark中Executer() A: 负责运行任务,但是并不为应用程序存储数据。 B: 是集群中一台实际的物理机器,通过配置文件设置指定。 C: 负责大数据计算任务的调度和协调,实际上并不运行任务。 D: 是运行在工作节点上的一个进程,负责运行任务,并为应用程序存储数据。
内容
- 0
______ 是构建在 Spark上的图计算模型,它利用spark框架提供的内存级存RDD、DAG和基于数据依赖的容错等特性,实现高效健壮的图计算框架
- 1
在Spark中,关于各种概念之间的相互关系的描述正确的有() A: 一个应用由一个任务控制点(Driver)和若干个作业(Job)构成。 B: 一个作业由多个阶段(Stage)构成。 C: 一个阶段由多个任务组成。 D: 执行一个应用时,任务控制节点会向集群管理器申请资源,启动Executor,并向Executor发送应用程序代码和文件,然后在Executor执行任务。 E: Executor上的任务执行完成后,执行结果会返回给任务控制节点,或者写入到HDFS或者其他数据库中。
- 2
窄依赖表现为( )。(注意:本题为多选题) A: 一个父RDD对应一个子RDD B: 一个父RDD对应多个子RDD C: 多个父RDD对应一个子RDD D: 多个父RDD对应多个子RDD
- 3
以下关于spark中的RDD说法正确的是() A: RDD(ResilientDistributedDataset)叫做分布式数据集,是spark中最基本的数据抽象 B: RDD是一个不可变的集合。 C: RDD是可以分成多个分区的,里面的元素可以并行计算的集合。 D: RDD数据本地性,数据向计算靠拢。
- 4
( )是构建在Spark上的图计算模型,它利用Spark框架提供的内存缓存RDD、DAG和基于数据依赖的容错等特性,实现高效健壮的图计算框架。 A: Data Manager B: MLlib C: Spark Runtime D: GraphX