Spark的最早数据设计中,RDD是基于内存的计算,可以支持细粒度的数据的读写和和更新操作,所以非常适用于增量迭代运算。
举一反三
- Spark的应用场景有哪些?() A: 基于内存的迭代计算适用于需要多次操作特定数据集的应用场合 B: 由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用 C: 适用于增量的web 爬虫和索引,就是对于那种增量修改的应用 D: 数据量没特别大的情况下,但是要求适当程度实时统计分析需求
- 大数据处理框架-Spark的优点是()。 A: Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合 B: Spark不适用那种异步细粒度更新状态的应用 C: Spark基于非实时数据流的数据处理 D: Spark的适用面比较广泛且比较通用
- RDD有哪些缺陷() A: 不支持细粒度的写和更新操作(如网络爬虫> B: 基于内存的计算 C: 拥有schema信息 D: 不支持增量迭代计算
- 关于Spark,下列说法错误的是:()。 A: Spark可以将中间数据缓存在内存中,极大提高运算效率 B: Spark采用MapReduce机制进行任务并行化 C: RDD是Spark的基本数据结构 D: Spark非常适合迭代运算
- 关于RDD论述正确的是() A: RDD读取的数据都存储在一台机器上 B: RDD是一种高效的可读写存储 C: RDD提供一种高度受限的共享内存模型,是一个弹性分布式数据集 D: RDD支持各种粗粒度和细粒度的操作,是一个高效的多模态处理系统