![](https://static.youtibao.com/asksite/comm/h5/images/m_q_title.png)
[填空题]
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎,将Job中间输出结果可以保存在()中,从而不再需要读写HDFS。因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法。
查看答案
![](https://static.youtibao.com/asksite/comm/h5/images/solist_ts.png)
A.Flume
B.Zookeeper
C.HIVE
D.Spark
A.RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是spark中最基本的数据抽象;
B.Resilient:表示弹性的;
C.Destributed:分布式,可以并行在集群计算;
D.Dataset:就是一个集合,用于存放数据的;
A.RDD具有血统机制(Lineage)
B.RDD默认存储在磁盘
C.RDD是一个只读的,可分区的分布式数据集
D.RDD是Spark对基础数据的抽象