下列关于RDD的叙述错误的是
A: DAG图反应了RDD之间的依赖关系
B: RDD转换过程的中间结果保存在磁盘中
C: 不同RDD之间的转换容易API编程实现
D: DAG图反应了RDD的血缘关系
A: DAG图反应了RDD之间的依赖关系
B: RDD转换过程的中间结果保存在磁盘中
C: 不同RDD之间的转换容易API编程实现
D: DAG图反应了RDD的血缘关系
B
举一反三
- 以下对Spark中RDD叙述错误的是() A: RDD是可读、写的 B: RDD是基于内存的高度首先的数据共享模型 C: RDD是基于磁盘的高度首先的数据共享模型 D: RDD之间的依赖关系分为宽依赖与窄依赖
- Spark RDD的运行过程主要包括() A: 从磁盘读入数据。 B: 创建RDD对象。 C: SparkContext负责计算RDD之间的依赖关系,构建DAG。 D: DAGScheduler负责把DAG图分解成多个阶段,每个阶段中包含了多个任务,每个任务会被任务任务调度器分发给各个工作节点(Worker Node)上的Executor去执行。
- 关于RDD的叙述错误的是? A: RDD是不可变的 B: RDD支持两种类型的操作:转换(Transformation) 和动作(Actions) C: RDD是Spark的核心概念 D: 以上均正确
- 以下哪个不是RDD的创建方式?() A: 从子的RDD转换到新的RDD B: 从数据集合转换而来 C: 从HDFS输入创建 D: 从父的RDD转换的到新的RDD
- 关于RDD,下列说法错误的是?() A: RDD具有血统机制(Lineage) B: RDD默认存储在磁盘 C: RDD是一个只读的,可分区的分布式数据集 D: RDD是Spark对基础数据的抽象
内容
- 0
RDD 表示只读的分区的数据集,对 RDD 进行改动,只能通过 RDD 的转换操作。( )
- 1
Spark RDD提供了一组丰富的操作以支持常见的数据运算,“行动”(Action)() A: 接受RDD并返回RDD,指定了RDD之间的相互依赖关系。 B: 接受RDD但是返回非RDD(即输出一个值或结果),执行计算并指定输出的形式。 C: 并不会触发真正的计算操作,这是因为RDD采用了惰性调用机制。 D: 包括诸如map、filter、groupby、join等。
- 2
下列关于弹性分布式数据集(RDD)的表述不正确的是 A: RDD是一个数据库 B: RDD是一个分布式的数据结构 C: RDD是一个数据抽象类型 D: RDD是一个编程范式
- 3
从RDD转换得到DataFrame包含两种典型方法,分别是: A: 利用反射机制推断RDD模式 B: 使用编程方式定义RDD模式 C: 利用投影机制推断RDD模式 D: 利用互联机制推断RDD模式
- 4
窄依赖表现为( )。(注意:本题为多选题) A: 一个父RDD对应一个子RDD B: 一个父RDD对应多个子RDD C: 多个父RDD对应一个子RDD D: 多个父RDD对应多个子RDD