首页 > 继续教育

题目内容（请给出正确答案）

[填空题]

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎，将Job中间输出结果可以保存在（）中，从而不再需要读写HDFS。因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法。

查看答案

如果结果不匹配，请联系老师获取答案

您可能会需要：

重置密码查看订单联系客服

安装优题宝APP，拍照搜题省时又省心！

更多“Apache Spark是专为大规模数据处理而设计的快速通用…”相关的问题

第1题

Spark是一个专为大规模数据处理而设计的快速通用的计算引擎，官方支持Scala、Java、C、Python语言。（)

点击查看答案

第2题

以下哪一项最早是Cloudera提供的日志收集系统，目前是Apache下的一个孵化项目，支持在日志系统中定制各类数据发送方，用于收集数据（)

A.Flume

B.Zookeeper

C.HIVE

D.Spark

点击查看答案

第3题

用户可以在Apache Mesos上运行Spark。（)

点击查看答案

第4题

Spark中运行交互式SQL查询的大规模并行查询引擎是（)。

A.SparkCore

B.SparkSQL

C.BlinkDB

D.Mllib

点击查看答案

第5题

大数据不需要掌握的技术是（)

A.Java

B.Hadoop

C.spark

D.MPP数据库

点击查看答案

第6题

RDD是Spark的最基本抽象，是对分布式（)的抽象使用

A.队列

B.内存

C.数据

D.事务

点击查看答案

第7题

spark中的cache缓存数据，默认是缓存在内存中，其本质还是调用persist。（)

点击查看答案

第8题

下列关于spark中的RDD描述正确的有（）。

A.RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是spark中最基本的数据抽象；

B.Resilient：表示弹性的；

C.Destributed：分布式，可以并行在集群计算；

D.Dataset：就是一个集合，用于存放数据的；

点击查看答案

第9题

下列选项中，哪个是用来将Hadoop和关系型数据库中的数据相互转移的工具（)

A.Zookeeper

B.Sqoop

C.HIVE

D.Spark

点击查看答案

第10题

如果其中有一个节点因为某种原因出现故障时， Spark 需要用到缓存数据时不会重算丢失的分区，因此不需要计算所有的分区。（)

点击查看答案

第11题

关于RDD,下列说法错误的是？（)

A.RDD具有血统机制(Lineage)

B.RDD默认存储在磁盘

C.RDD是一个只读的,可分区的分布式数据集

D.RDD是Spark对基础数据的抽象

点击查看答案

长沙图香大数据有限公司版权所有 ©2024

湘ICP备20011576号-2 营业执照

违法和不良信息举报电话：400-118-7898

举报/反馈/投诉邮箱：deng＃ujigu.com（请将＃替换成@）