窄依赖表现为( )。(注意:本题为多选题)
A: 一个父RDD对应一个子RDD
B: 一个父RDD对应多个子RDD
C: 多个父RDD对应一个子RDD
D: 多个父RDD对应多个子RDD
A: 一个父RDD对应一个子RDD
B: 一个父RDD对应多个子RDD
C: 多个父RDD对应一个子RDD
D: 多个父RDD对应多个子RDD
举一反三
- 下列关于弹性分布式数据集(RDD)的表述不正确的是 A: RDD是一个数据库 B: RDD是一个分布式的数据结构 C: RDD是一个数据抽象类型 D: RDD是一个编程范式
- 下列关于RDD说法,描述有误的是? A: 一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合 B: 每个RDD可分成多个分区,每个分区就是一个数据集片段 C: RDD是可以直接修改的 D: RDD提供了一种高度受限的共享内存模型
- 如果一个RDD在计算过程中出错,可以直接通过它的父RDD重新计算得到,这是Spark基于 的容错机制。
- SparkStreaming容错机制是指RDD中任意的Partition出错,都可以根据其父RDD重新计算生成,如果父RDD丢失,则需要去磁盘中查找原始数据。
- 下列哪一种方法可以得到RDD(('a',1))()。 A: RDD(('a',1),('b',1)) union RDD(('a',1),('b',1)) B: RDD(('a',1),('b',1)) join RDD(('a',1),('b',1)) C: RDD(('a',1),('b',1)) intersection RDD(('a',1),('d',1)) D: RDD(('a',1),('b',1)) subtract RDD(('a',1),('b',1))