• 2022-07-24
    如果一个RDD在计算过程中出错,可以直接通过它的父RDD重新计算得到,这是Spark基于 的容错机制。
  • lineage

    内容

    • 0

      Spark的RDD的转换会触发Spark计算操作。

    • 1

      Spark RDD提供了一组丰富的操作以支持常见的数据运算,“行动”(Action)() A: 接受RDD并返回RDD,指定了RDD之间的相互依赖关系。 B: 接受RDD但是返回非RDD(即输出一个值或结果),执行计算并指定输出的形式。 C: 并不会触发真正的计算操作,这是因为RDD采用了惰性调用机制。 D: 包括诸如map、filter、groupby、join等。

    • 2

      ( )是构建在Spark上的图计算模型,它利用Spark框架提供的内存缓存RDD、DAG和基于数据依赖的容错等特性,实现高效健壮的图计算框架。 A: Data Manager B: MLlib C: Spark Runtime D: GraphX

    • 3

      以下关于Spark的描述正确的是? A: 克服MapReduce在迭代式计算和交互式计算方面的不足。 B: Mlib是Spark的机器学习库。 C: Spark streaming是一个真正的实时计算框架。 D: RDD 算子分为 transformation 和 action,transformation 是得到一个新的RDD。

    • 4

      以下关于spark中的RDD说法正确的是() A: RDD(ResilientDistributedDataset)叫做分布式数据集,是spark中最基本的数据抽象 B: RDD是一个不可变的集合。 C: RDD是可以分成多个分区的,里面的元素可以并行计算的集合。 D: RDD数据本地性,数据向计算靠拢。