A.reducer
B.mapreducedriver
C.combiner
D.mapper
A.Object
B.Text
C.IntWritable
D.int
B.大规模并行计算:在分布式并行环境中将一个任务分解成更多份细粒度的子任务,这些子任务在空闲的处理节点之间被调度和快速处理之后,最终通过特定的规则进行合并生成最终的结果。典型技术为MapReduce
C.结构化分布式数据存储:类似文件系统采用数据库来存储结构化数据,云计算也需要采用特殊技术实现结构化数据存储,典型技术为BigTable/Dynamo等
D.分布式文件系统:可扩展的支持海量数据的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,提供容错功能(通常保留数据的3份拷贝),典型技术为GFS/HDFS/KFS等
A.支持多种编程语言
B.易于理解
C.良好的扩展性
D.高容错性
A.ReduceJoin可以实现内链接,也能实现各种外连接
B.ReduceJoin的join操作是在MapReduce程序中的reducer阶段完成的
C.MapJoin也适合各种join场景,也能实现内连接和各种外链接
D.MapJoin不会产生数据倾斜
A.分布式系统需要统一管理
B.MapReduce代码开发效率低下
C.使用SQL进行数据分析效率更高
D.大数据50%为报表类业务,需要仓库类大数据工具