![](https://static.youtibao.com/asksite/comm/h5/images/m_q_title.png)
下列关于Hadoop组件的说法,正确的有()。①HDFS是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上;②Hive是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制;③Flume采用了Agent、Gossip和Storage三层架构;④Sqoop主要设计目的是在Hadoop与传统数据库之间进行数据的ETL操作
A.①②③
B.①②④
C.②③④
D.①③④
![](https://static.youtibao.com/asksite/comm/h5/images/solist_ts.png)
A.①②③
B.①②④
C.②③④
D.①③④
A.HDFS是Hadoop技术体系中数据管理的基础,是一个高容错的系统,能检测和应对硬件故障
B.Sqoop数据同步工具,它是SQL TO Hadoop的缩写,主要用于关系型数据库和Hadoop之间的数据传输
C.Sqoop数据导入和导出本质上还是一个MapRuduce程序,充分利用了MapRuduce的并行化和容错性
D.Kafka主要用于处理活跃的流式数据,在web网站上非常常见,包括网站的pageview
A.sqoop可以将HQL/SQL的执行结果导入到Oracle或者Hive
B.不能大于1M
C.sqoop使用参数-m(即--num-mappers)进行导数时,分布在每一个map上的数据是均匀的
D.sqoop将数据导入Oracle时遇到值的长度超长,sqoop会继续将正常的数据导入Oracle
A.HadoopYARN的目的是使得Hadoop数据处理能力超越HDFS
B.HadoopMapReduce也是YARN上的一个应用
C.YARN的另一个目标就是拓展Hadoop
D.有了YARN各种应用就可以互不干扰地运行在同一个Hadoop系统中
A.Pig:处理大规模数据的脚本语言
B.Tez:支持DAG作业的计算框架
C.Oozie:工作流和协作服务引擎
D.Kafka:分布式发布订阅消息系统
A.SparkStreaming与Flink相比,时延更低
B.Flink流式处理引擎能够同时提供支持流处理和批处理应用的功能
C.checkpoint实现了Flink的容错
D.与FusionInghtHD中的Streaming相比,Flink具有更高的吞吐量
A.Namenode管理集群,记录namenode文件信息
B.SecondaryNamenode可以做备份,对一定范围内的数据做快照
C.Datanode存储数据
D.Jobtracker管理任务,分配任务
A.hadoop的文件API不是通用的,只用于HDFS文件系统
B.Configuration类的默认实例化方法是以HDFS系统的资源配置为基础
C.FileStatus对象存储文件和目录的元数据
D.FSDataInputStream是java、io、DataInputStream的子类