下列哪些属于RDD的特性
A: Spark的运行效率高于MapReduce
B: JAVA对象存内存,避免了序列化和反序列化开销
C: 中间结果持久化到内存,避免了磁盘开销
D: 高效的容错性
A: Spark的运行效率高于MapReduce
B: JAVA对象存内存,避免了序列化和反序列化开销
C: 中间结果持久化到内存,避免了磁盘开销
D: 高效的容错性
举一反三
- Spark采用RDD以后能够实现高效计算的原因主要在于? A: 高效的容错性 B: 中间结果持久化到内存,数据在内存中的多个 C: 存放的数据可以是Java对象,避免了不必要的对象序列化和反序列化 D: 采用数据复制实现容错
- Spark采用RDD以后能实现高效计算的原因有() A: 中间结果存入磁盘 B: 中间结果可持久化到内存 C: 高效的容错性 D: 采用分区可实现计算向数据靠拢
- 关于Python对象的序列化和反序列化说法正确的是________。 A: 当程序运行时,所有的变量或者对象都是存储到内存中的,一旦程序调用完成,这些变量或者对象所占有的内存都会被回收。而为了实现变量和对象持久化的存储到磁盘中或在网络上进行传输,我们需要将变量或者对象转化为二进制流的方式。而将其转化为二进制流的过程就是序列化。 B: json.dumps()将python格式转化为json的字符串形式json.loads()将json的字符串格式转换为python的数据格式。 C: 反序列化就是说程序运行的时候不能从磁盘中进行读取,需要将序列化的对象或者变量从磁盘中转移到内存中,同时也会将二进制流转换为原来的数据格式。我们把这一过程叫做反序列化。 D: 把变量从内存中变成可存储或传输的过程称之为反序列化,即序例化后可以将对象永久保存在磁盘文件中。反之把变量内容从序列化的对象重新读到内存里称之为序列化。
- 关于Spark,下列说法错误的是:()。 A: Spark可以将中间数据缓存在内存中,极大提高运算效率 B: Spark采用MapReduce机制进行任务并行化 C: RDD是Spark的基本数据结构 D: Spark非常适合迭代运算
- 对象序列化机制可以使内存中的Java对象转换成与平台无关的【】,持久地保存在磁盘上