以下选项中是persist算子在源码中具有哪些参数的是()
A: rdd是由一系列partition够成的
B: rdd之间都是独立的,没有依赖
C: 算子作用在partition上
D: 每个rdd都会提供一批最优的计算位置
A: rdd是由一系列partition够成的
B: rdd之间都是独立的,没有依赖
C: 算子作用在partition上
D: 每个rdd都会提供一批最优的计算位置
A,B,C
举一反三
- 以下关于rdd的特性说法错误的是() A: rdd是仅仅由一组partition够成的 B: rdd之间都是独立的,没有依赖 C: 算子作用在partition上 D: 每个rdd都会提供一批最优的计算位置
- 以下选项属于rdd特性的是() A: 冗余性 B: 一致性 C: rdd之间具有依赖性 D: 每个rdd都会提供一批最优的计算位置
- Spark中,以下哪些是rdd的特性() A: partition大小 B: partition个数 C: partiton的所有者 D: parrtition的一切
- SparkStreaming容错机制是指RDD中任意的Partition出错,都可以根据其父RDD重新计算生成,如果父RDD丢失,则需要去磁盘中查找原始数据。
- DStream的内部结构是由一系列连续的RDD组成,每个RDD都是一小段时间间隔开的数据集。
内容
- 0
spark Streaming容错机制是指RDD中任意的partition出错,都可以根据其父RDD重新计算生成,如果父RDD丢失,则需要去磁盘中查找原始数据。 A: 正确 B: 错误
- 1
窄依赖表现为( )。(注意:本题为多选题) A: 一个父RDD对应一个子RDD B: 一个父RDD对应多个子RDD C: 多个父RDD对应一个子RDD D: 多个父RDD对应多个子RDD
- 2
distinct算子对源RDD进行去重后返回一个新的RDD
- 3
以下对Spark中RDD叙述错误的是() A: RDD是可读、写的 B: RDD是基于内存的高度首先的数据共享模型 C: RDD是基于磁盘的高度首先的数据共享模型 D: RDD之间的依赖关系分为宽依赖与窄依赖
- 4
RDD可以从Hadoop兼容的文件系统生成,生成之后可以通过调用RDD的算子对RDD的数据进行部分更新。