9-MapReduce开发技术

本文介绍: 题目7：两个键值对和x，如果对其进行归并(merge)，会得到，如果对其进行合并(combine)，会得到。题目3：在Had oop中每个应用程序被表示成一个作业，每个作业又被分成多个任务，Jo bTrac k e r的负责作业的分解、状态监控以及资源管理。题目8：MapRedu ce 设计的一个理念就是“计算向数据靠拢”，而不是“数据向计算靠拢”，因为，移动数据需要大量的网络传输开销。

单选题
题目1：MapRedu ce 自定义排序规则需要重写下列那项方法
 选项:
A  readFie ld s()
B  com p ar eTo()
C  map()
D  reduce()
答案：B
——————————
题目2：下面关于MapRedu ce 模型中Map 函数与Redu ce 函数的描述正确的是
选项:
A  一个Map 函数就是对一部分原始数据进行指定的操作
B  一个Map 操作就是对每个Redu ce所产生的一部分中间结果进行合并操作。
C  Map与Ma p 之间不是相互独立的。
D  Redu ce e与Redu ce 之间不是相互独立的。
答案：A
——————————
题目3：Ma pRedu ce适用于
 选项:
A  任意应用程序
B  任意可以在Wi nd o ws Se r v e r 2008上的应用程序
C  可以串行处理的应用程序
D  可以并行处理的应用程序
 答案：D
——————————
题目4：在Ha do op中，下面哪个是默认的inputForm a t 类型，它将每行内容作为新值，而将字节偏移量作为Ke y
选项:
A  FileInpu tForm a t
B  TextInpu tForm a t
C  KeyValueTextInpu tForm at
答案：B
——————————
题目5：下面哪个是一种编程模型，它将大规模的数据处理工作拆分成互相独立的任务然后并行处理
选项:
A  Ma pRedu ce
B  HDFS
C  Pi g
答案：A
——————————
题目6：在Ha do op的分区阶段，默认的Par titioner是什么
 选项:
A  HashPar
B  Par ti ti oner
C  HashPar ti ti oner
答案：C
——————————
题目7：在MapRedu ce中，下面哪个阶段是并行进行的
选项:
A  Sh uf fle和Map
B  Sh uf fle和So rt
C  Redu ce和Sort
答案：B
——————————
题目8：有关MapRedu ce，下面哪个说法是正确的
选项:
A  它提供了资源管理能力
B  它是开源数据仓库系统，用于查询和分析存储在Hado op中的大型数据集
C  它是Hadoop 数据处理层
答案：C
——————————
题目9：编写MapRedu ce程序时，下列叙述错误的是
选项:
A  reduce函数所在的类必须继承自Redu cer类
B  map 函数的输出就是re du ce函数的输入
C  re du ce函数的输出默认是有序的
D  启动MapReduce进行分布式并行计算的方法是start（）
答案：D
——————————
题目10：Hadoop MapReduce计算的流程是
选项:
A  Map任务—Sh uf fle—Reduce任务
B  Map任务—Reduce任务—Sh uf fle
C  Reduce任务—Map任务—Shuf fle
D  Shuf fle—Map任务—Reduce任务
答案：A
——————————
多选题
题目1：关于MapReduce的s huf fle过程，叙述正确的是
选项:
A  Shuffle分为Map任务端的Shuffle和Reduce任务段的Shuffle
B  Map任务的输出结果不是立即写入磁盘，而是首先写入缓存
C  并非所有场合都可以使用合并操作
D  每个Reduce任务真正开始之前，大部分时间都在从Map端领取所需的数据
答案：ABCD
——————————
题目2：MapReduce为了保证任务的正常执行，采用哪些容错机制
选项:
A  重复执行
B  重新开始整个任务
C  推测执行
D  直接丢弃执行效率低的作业
答案：AC
——————————
题目3：对MapReduce的体系结构，以下说法正确的是
选项:
A  分布式编程架构
B  以数据为中心，更看重吞吐率
C  分而治之的思想
D  将一个任务分解成多个子任务
答案：ABCD
——————————
题目4：MapReduce体系结构主要由哪几个部分组成
选项:
A  TaskTrac ker
B  Task
C  JobTrac ker
D  Client
答案：ABCD
——————————
题目5：下列关于传统并行计算框架（比如MPI）和MapReduce并行计算框架比较正确的是
选项:
A  前者相比后者学习起来更难
B  前者是共享式(共享内存/共享存储)，容错性差，后者是非共享式的，容错性好
C  前者适用于实时、细粒度计算、计算密集型，后者适用于批处理、非实时、数据密集型
D  前者所需硬件价格贵，可扩展性差，后者硬件便宜，扩展性好
答案：ABCD
——————————
题目6：MapReduce与HBase的关系，哪些描写叙述是正确的？
选项:
A  两者不可或缺，MapReduce是HBase能够正常执行的保证
B  两者不是强关联关系，没有MapReduce，HBase能够正常执行
C  MapReduce能够直接访问HBase
D  它们之间没有不论什么关系
答案：BC
——————————
判断题
题目1：分区数量是ReduceTask的数量。
选项:
答案：
——————————
题目2：Map阶段处理数据时，是按照Key的哈希值与ReduceTask数量取模进行分区的规则。
选项:
答案：
——————————
题目3：在Hadoop中每个应用程序被表示成一个作业，每个作业又被分成多个任务，JobTrac ker的负责作业的分解、状态监控以及资源管理。
选项:
答案：
——————————
题目4：Map的主要工作是将多个任务的计算结果进行汇总。
选项:
答案：错误
——————————
题目5：HDFS是分布式文件系统，其命名空间包括块、目录和文件。
选项:
答案：
——————————
题目6：HDFS集群开始启动时，其处于安全模式，可以进行读操作，不能进行写操作。
选项:
答案：
——————————
题目7：两个键值对<“hello”,1>和<“hello”,1>x，如果对其进行归并(merge)，会得到<“hello”,<1,1>>，如果对其进行合并(combine)，会得到<“hello”,2>。
选项:
答案：错误
——————————
题目8：MapReduce设计的一个理念就是“计算向数据靠拢”，而不是“数据向计算靠拢”，因为，移动数据需要大量的网络传输开销。
选项:
答案：
——————————
填空题
题目1：Sqoop底层利用 _____技术以_____方式加快了数据传输速度，并且具有较好的容错性功能。
选项:
答案：
MapReduce
批处理
——————————
题目2：Part itioner组件目的是 _____
选项:
答案：将key均匀分布在ReduceTask上
——————————