Hadoop技术与应用的习题

时间:2025-05-14 07:36:26

第一章测验

1、下面哪个选项不属于Google的三驾马车?A

  

  

  

  

2、下面哪个思想是为了解决PageRank(网页排名)的问题?C

  

  

  

  

3、GFS 存储的文件都被分割成固定大小的块,每个块都会复制到多个块服务器上(可靠性),请问默认冗余存储几份?C

  A.1

  B.2

  C.3

  D.5

4、下面哪个特点是不属于Hadoop的特点?D

  A.扩容能力强

  B.成本低

  C.高效率和可靠性

  D.适合复杂数据的分析

5、下面哪个场景适合使用Hadoop处理?C

  A.少量数据分析

  B.在线分析

  C.离线分析

  D.复杂数据

6、2003年,Google公司发表了主要讲解海量数据的可靠存储方法的论文是?A

  A.“The Google File System”

  B.“MapReduce: Simplified Data Processing on Large Clusters”

  C.“Bigtable: A Distributed Storage System for Structured Data”

  D.“The Hadoop File System”

7、2004年,Google公司发表了主要讲解海量数据的高效计算方法的论文是?B

  A.“The Google File System”

  B.“MapReduce: Simplified Data Processing on Large Clusters”

  C.“Bigtable: A Distributed Storage System for Structured Data”

  D.“The Hadoop File System”

8、2006年,Google公司发表了用来处理海量数据的一种非关系型数据库的论文是?C

  A.“The Google File System”

  B.“MapReduce: Simplified Data Processing on Large Clusters”

  C.“Bigtable: A Distributed Storage System for Structured Data”

  D.“The Hadoop File System”

9、对于GFS架构,下面哪个说法是错误的?A

   Master节点管理所有的文件系统所有数据块。

  存储的文件都被分割成固定大小的块,每个块都会被复制到多个块服务器上(可靠性)。块的冗余度默认为3。

   Master还管理着系统范围内的活动,比如块服务器之间的数据迁移等

   Master与每个块服务器通信(发送心跳包),发送指令,获取状态

10、狭义的Hadoop是一个适合大数据分布式存储和分布式计算的平台,不包括下面哪个组件?D

  

  

  

  

11、与Hadoop 相比,Hadoop 采用全新的架构,最明显的变化就是增加了哪个组件?B

  

  

  

  

12、建立在Hadoop文件系统之上的分布式的列式数据库?A

  

  

  

  

13、下面哪个选项不是HDFS架构的组成部分?D

  

  

  

  

14、Hadoop的作者是?A

   cutting

   Fowler

   Beck

   answer text provided. 

15、Hadoop版本演进过程中,0比Hadoop1.0有了很多的优化,下面哪项不属于Hadoop2.0?B

  A.加入HDFS的 NameNode Federation和YARN

  基于cgroup的内存和磁盘IO隔离

  C.支持NameNode HA

  -compatibility特性

16、Hadoop版本演进过程中,Hadoop3.0比Hadoop2.0有了很多的优化,下面哪项不属于Hadoop3.0?C

  版本的最低依赖从1.7变成了1.8

  B.支持多个Standby状态的NameNode

  C.支持NameNode HA

  内部添加了负载均衡

17、Hadoop更适合哪些场景?A

  A.离线分析

  B.复杂数据

  C.少量数据

  D.在线分析

18、下面哪些是大数据的基本特征?ABCD

  A.数据体量大

  B.数据类型多

  C.处理速度快

  D.价值密度低

19、Hadoop能够使用户轻松开发和运行处理大数据的应用程序,那它主要有下面哪些特点?ABCD

  A.高可靠性

  B.高扩展性

  C.高效性

  D.高容错性

20、Google的在大数据解决方案是开源的。B

  

  

21、GFS分布式文件系统有两个基本组成部分,一个是客户端(Client),一个是服务端(Server)。A

  

  

22、上传的数据块保存在GFS上,在保存过程中需要水平复制,水平复制需要考虑两个要求:可靠性、可用性。A

  

  

23、HDFS的采用了“分而治之”的思想。B

  

  

24、MapReduce是的最早提出是Google为了解决PageRank的问题。A

  

  

25、Hbase是非关系型数据库,是面向列的。A

  

  

26、Hadoop源自始于2002年的Apache Lucene项目。B

  

  

27、Google的论文《Google File System》提到:还依赖一个高可用的、序列化的分布式锁服务组件,叫Chubby。B

  

  

28、Region Server是Google的论文《Bigtable:一个分布式的结构化数据存储系统》中描述的BigTable的组成部分。B

  

  

29、Google的GFS论文是主要是为了解决PageRank(网页排名)的问题。B

  

  

第二章测验

1、下面的配置项配置在hadoop哪个配置文件?A

<property>

   <name></name>

   <value>/home/hadoop/hadoop/tmp</value>

</property>

  

  

  

  

 2、端口50070默认是Hadoop哪个服务的端口?A

  NameNode

  DataNode

  SecondaryNameNode

  Yarn

 3、Hadoop完全分布模式配置免密登录是要?C

  实现主节点到其他节点免密登录

  实现从节点到主节点的免密登录

  主节点和从节点任意两个节点之间免密登录

  以上都不是

 4、安装Hadoop时,发现50070对应的页面无法打开,可以通过下面哪个命令查看某个端口(TCP或UDP)是否在监听?B

  ps

  netstat

  ping

  ifconfig

 5、下面哪个目录保存了Hadoop集群的命令(比如启动Hadoop)?B

  bin

  sbin

  etc

  share

 6、把公钥追加到授权文件的命令是?A

  ssh-copy-id

  ssh-add

  ssh

  ssh-keygen

 7、采用用户user1安装hadoop伪分布式时,解压hadoop安装包采用下面命令:D

sudo tar -zxvf hadoop-2.7. -C ~

运行ls -al命令显示

drwxr-xr-x 11 root root     4096 Aug  3 01:06 hadoop-2.7.3

如果要修改hadoop-2.7.3目录的权限,采用下面哪个命令才有效而且最佳?

  chown user1:user1 hadoop-2.7.3

  chown -R user1:user1 hadoop-2.7.3

  sudo chmod -R 777 hadoop-2.7.3

  sudo chown -R user1:user1 hadoop-2.7.3

 8、下列哪个属性是中的配置?A

  

  

  

  

 9、Hadoop配置文件所在目录是哪个?D

  /etc/hosts

  /etc/hadoop

  $HADOOP_HOME/conf

  $HADOOP_HOME/etc/hadoop

 10、安装Hadoop集群时,是在哪个文件指定哪些机器作为集群的从机?B

  datanode

  slaves

  

  

 11、启动HDFS后,jps能看到哪些守护进程?ABD

  DataNode

  NameNode

  NodeManager

  SecondaryNameNode

 12、启动YARN后,jps能看到哪些守护进程?BC

  DataNode

  NodeManager

  ResourceManager

  NameNode

 13、SecondaryNameNode 应与 NameNode 部署到一个节点 B

  True

  False

 14、安装Hadoop时,配置项””是配置在文件 B

  True

  False

 15、查看Linux ip的命令是ifconfig A

  True

  False

 16、每次启动Hadoop都要格式化文件系统 B

  True

  False

 17、启动Hadoop所有进程的命令是 A

  True

  False

 18、设置免密登录需要先用ssh-keygen生成一对密钥 A

  True

  False

 19、SecondaryNameNode 是 NameNode 的热备份 B

  True

  False

 20、datanode负责存储数据 A

  True

  False

 21、修改~/.bashrc文件保存后,修改的内容能立即生效 B

  True

  False

22、在/etc/hosts文件映射ip和主机名称 A

  True

  False

第三章测验

1、HDFS首先把大数据文件切分成若干个小的数据块,再把这些数据块分别写入不同的节点,这些负责保存文件数据的节点被称为?B

  NameNode

  DataNode

  SecondaryNameNode

  Block

 2、名称节点(NameNode)是HDFS的管理者,它的职责有3个方面,下面哪个选项不是NamdeNode的职责?D

  负责管理和维护HDFS的命名空间(NameSpace)

  管理DataNode上的数据块(Block)

  接收客户端的请求

  负责保存数据块

 3、数据节点(DataNode)负责存储数据,一个数据块会在多个DataNode中进行冗余备份,那么HDFS默认存储几份?C

  1

  2

  3

  5

 4、下面哪个选项不属于DataNode的职责?C

  保存数据块

  启动DataNode线程,向NameNode定期汇报数据块信息

  管理数据块

  定期向NameNode发送心跳信息保持联系

 5、向HDFS上传文件,正确的shell命令是?B

  hdfs dfs -get

  hdfs dfs -put

  hdfs dfs -appendToFile

  hdfs dfs -copyToLocal

 6、对于HDFS文件读取过程,描述不正确的是?A

  HDFS客户端通过Configuration对象的open()方法打开要读取的文件

  DistributedFileSystem负责向远程的名称节点(NameNode)发起RPC调用,得到文件的数据块信息,返回数据块列表

  通过对数据流反复调用read()方法,把数据从数据节点传输到客户端

  当客户端读取完数据时,调用FSDataInputStream对象的close()方法关闭输入流

 7、HDFS能够在出错的情况下保证数据存储的可靠性,常见的出错情况不包括?D

  数据节点(DataNode)出错

  名称节点(NameNode)出错

  数据本身出错

  以上选项都不包括

 8、考虑到安全和效率,Hadoop设计了机架感知(rack-aware)功能,下面关于机架感知说法正确的是?C

  三个冗余备份可在同一个机架上

  三个冗余备份在不同的机架上

  三个冗余备份其中有两个在同一个架构上,另外一个备份在不同的机架上

  上述说法都不对  

 9、Hadoop类库中最终面向用户提供的接口类是_____。该类是个抽象类,只能通过类的get方法得到具体类?B

  Configuration类

  FileSystem类

  Path类

  URI类

 10、使用HDFS Federation的优点不包括下面哪个选项?B

  NameSpace具有可扩展性

  DataNode具有可扩展性

  性能提升。多个NameNode可以提高读写时的数据吞吐量

  隔离性。使用联邦可隔离不同类型的程序,一定程度上可控制资源的分配

 11、当NameNode出错时,下面哪个方案描述正确,且是最佳故障恢复和容错方案?B

  采用SecondaryName定时备份NameNode的fsimage和edits

  采用NameNode HA,当一个NameNode出错时,另一个NameNode接管它的工作

  采用NameNode Fedaration,多个Namenode一起工作

  多增加DataNode

 12、关于HDFS回收站描述正确的是 D

  HDFS回收站默认开启

  HDFS回收站中的文件文件像Windows回收站一样,如果不清空回收站,文件会一直保留在回收站

  HDFS为每一个用户都创建了回收站,这个类似操作系统的回收站。位置是/user/用户名/.Trash/

  用户不能手动清空回收站中的内容

 13、关于 SecondaryNameNode的描述,哪项是正确的?C

  它是NameNode的热备

  它对内存没有要求

  它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间

  SecondaryNameNode应与NameNode部署到一个节点

 14、HDFS的是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是? C

  一次写入,少次读写

  多次写入,少次读写

  一次写入,多次读写

  多次写入,多次读写

 15、HDFS是整个Hadoop生态圈中的基石 A

  True

  False

 16、在HDFS HA集群中,两个NameNode都处于活跃状态,这样其中一个NameNode故障时,集群仍然可用 B

  True

  False

 17、DataNode一旦发生故障将导致整个集群不可用 B

  True

  False

 18、上传到HDFS的一个数据块是1M,那么它在HDFS上占用的内存是

  True

  False

 19、NameNode管理了两个文件,其中fsimage体现了其最新的状态 A

  True

  False

 20、安全模式(Safemode)是HDFS所处的一种特殊状态。处于这种状态时,HDFS只接受读数据请求,不能对文件进行写、删除等操作 A

  True

  False

 21、HDFS为每一个用户都创建了类似操作系统的回收站(Trash),当用户删除文件时,文件马上就会被永久性删除 B

  True

  False

 22、hdfs dfsadmin -disallowSnapshot是开启HDFS快照的命令 B

  True

  False

 23、HDFS提供了如下两种配额(Quota)命令(这两种命令是管理命令——hdfs dfsadmin)A

  True

  False

第四章测验

1、YARN Web界面默认占用哪个端口?B

  50070

  8088

  50090

  9000

 2、下面哪个YARN的描述不正确的是?B

  YARN 指Yet Another Resource Negotiator,是另一种资源协调者

  YARN只支持MapReduce一种分布式计算模式

  YARN最初是为了改善MapReduce的实现

  YARN的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处

 3、下面哪个不属于YARN的架构的组成部分?A

  JobTracker

  ResourceManager

  NodeManager

  Application Master

 4、YARN哪种调度器采用的是单队列?C

  Capacity Scheduler

  Fair Scheduler

  FIFO Scheduler

  以上都不是

 5、哪种调度器是YARN中默认的资源调度器?B

  FIFO Scheduler

  Capacity Scheduler

  Fair Scheduler

  以上都不是

 6、多用户的情况下,哪个YARN调度器可以最大化集群的吞吐和利用率?A

  Capacity Scheduler

  FIFO Scheduler

  Fair Scheduler

  以上都不是

 7、YARN中,任务进度监控是向哪个组件汇报的?C

  ResourceManager

  NodeManager

  ApplicationMaster

  Container  

 8、关于YARN的说法错误的是?D

  YARN可以支持除了MapReduce之外的其他计算框架

  YARN是Yet Another Resource Negotiator的缩写

  YARN可以为上层应用提供统一的资源管理和调度

  YARN不是通用的资源管理器

 9、关于MapReduce1和YARN的对比错误的是?B

  MapReduce1由JobTracker负责作业调度与任务监控

  YARN的作业调度和任务监控都是由ResourceManager组件完成

  MapReduce1的任务节点叫做TaskTracker,而Yarn的任务节点为NodeManager

  MapReduce1的资源调配单元为Slot,而Yarn的资源调配单元为Container

 10、YARN有哪几种资源调度器?ABC

  FIFO Scheduler

  Capacity Scheduler

  Fair Scheduler

  Resource Scheduler

 11、YARN架构的几个组成部分有哪些?ABCD

  Container

  ResourceManager

  NodeManager

  Application Master

 12、在YARN之上可以部署Spark A

  True

  False

 13、多用户的情况下,Fair Scheduler可以最大化集群的吞吐和利用率 B

  True

  False

 14、Hadoop2.0,FIFO Scheduler是YARN中默认的资源调度器 B

  True

  False  

 15、YARN的FIFO Scheduler采用的是单队列 A

  True

  False

 16、启动YARN的命令是 A

  True

  False

 17、启动YARN之后,jps能看到ResourceManager和NodeManager两个守护进程 A

  True

  False

 18、有YARN组件 B

  True

  False

 19、YARN默认的调度器是Fair Scheduler B

  True

  False

 20、公平调度器是所有队列中的所有任务公平的得到相同资源 B

  True

  False

 21、容器调度器在多用户的情况下,可以最大化集群的吞吐和利用率 A

  True

  False

第五章测验

1、MapReduce的特点不包括:D

  易于编程

  良好的扩展性

  高容错性

  擅长对PB级以上海量数据进行实时处理

 2、MapReduce更擅长:A

  离线计算

  实时计算

  流式计算

  DAG(有向图)计算

 3、MapReduce中,Mapper的个数由什么决定的?A

  SplitInput的个数

  DataNode的个数

  文件切分的数据块的个数

  计算机计算能力

 4、Reducer的个数由什么决定的?D

  DataNode的个数

  文件切分的数据块的个数

  计算机计算能力

  Partition分区的个数

 5、MapTask 或ReduceTask向自己的哪个组件报告进度和状态?C

  ResourceManager

  NodeManager

  MRAppMaster

  Container

 6、MapReduce的Shuffle过程中哪个操作是最后做的?A

  合并

  溢写

  分区

  排序

 7、下面关于MapReduce的描述中正确的是?D

  MapReduce程序必须包含Mapper和Reducer

  MapReduce程序的MapTask可以任意指定

  MapReduce程序的ReduceTask可以任意指定

  MapReduce程序的默认数据读取组件是TextInputFormat

 8、MapReduce编程模型中以下组件哪个是最后执行的?C

  Mapper

  Partitioner

  Reducer

  RecordReader

 9、在MapReduce中,哪个组件如果用户不指定,则不会默认存有的?A

  Combiner

  OutputFormat

  Partitioner

  InputFormat

 10、下列哪种业务场景中,不能直接使用Reducer充当Combiner使用?B

  sum求和

  avg求平均

  max求最大值

  count求计数

 11、以下描述不正确的是?C

  SequenceFile可以用来作为小文件的合并存储容器

  TextInputFormat的key是LongWritable类型的

  TextInputFormat的key是指该记录在文件中的行号

  TextInputFormat 是默认InputFormat

第六章测验

1、下列哪种场景不适合采用列式存储?D

  对于单列,获取频率较高

  对于大数据的环境,利于数据压缩和线性扩展

  事务使用率不高,数据量非常大

  对于更新某些行的频率很高

 2、行式存储和列式存储优缺点表述不正确的是?A

  相比行式存储,列式存储UPDATE比较容易

  行式存储列数不能太多,一般不能超过30列

  行式存储选择时即使只涉及某几列,所有数据也都会被读取

列式存储做查询操作,选择完成时,被选择的列要重新组装

 3、HBase Web Console的默认端口是?D

  50070

  50090

  8088

  16010

 4、下面描述HBase的Region的内部结构不正确的是?D

  每个Strore由一个MemStore和0至多个StoreFile组成

  Region由一个或者多个Store组成

  MemStore存储在内存中,StoreFile存储在HDFS

  每个Store保存一个 Column

 5、查看HBase的表的结构,可以通过哪个命令?B

  list

  describe

  status

  get

 6、通过JAVA API操作HBase,哪个JAVA类是操作列簇的? C

  HBaseAdmin

  HTable

  HtableDescriptor

  Scanner

 7、下面哪项对HBase的特性描述不正确?A

  伸缩性:表可以很“高”(数百万个数据行),可以很“宽”(数十亿个列)

  自动分区:当表增长时,表会自动分裂成Region,并分布到可用节点上

  线性扩展和对于新节点的自动处理:增加节点,指它指向RegionServer,Region自动负载均衡

  普通商用硬件支持

  容错:HBase在Hadoop的文件系统之上,利用了Hadoop的文件系统(HDFS)提供的容错能力

 8、Hive支持的复杂数据类型不包括:D

  Array

  Map

  Struct

  List

 9、从存储位置上,可以拿Hive与HDFS进行比较,下面说法不正确的是?C

  Hive的表保存到HDFS上是一个目录

  Hive的分区保存到HDFS上是一个目录

  Hive的桶保存到HDFS上是一个目录

  Hive的数据保存到HDFS上是一个文件

 10、使用hive的“create table”语句创建表时,如果不指定分隔符,默认的分隔符是:D

  冒号“:”

  逗号“,”

  制表符“\t”

  “\001”,即Ctrl+A

 11、Hive数据模型不包括:B

  内部表(托管表)

  存储过程

  外部表

  分区表

  桶表

 12、Hive哪一种数据模型,删除表时,存储目录中的数据不会被删除,只是删除与数据的链接?B

  内部表(托管表)

  外部表

  分区表

  桶表

 13、下列对Pig的描述不正确的是?B

  Pig不要求每一行(tuple)具有相同的列

  Pig的表不可以嵌套

  Pig可以简化MapReduce任务的开发

  Pig可以看做是Pig Latin到MapReduce的映射器

 14、Pig复杂数据类型不包括:B

  map

  set

  bag

  tuple

 15、下面命令不属于pig命令的是:C

  cd

  ls

  df

  register

 16、Pig加载存储函数中,哪个函数可以用字段分隔文本格式加载或存储关系?A

  PigStorage

  BinStorage

  BinaryStorage

  TextLoader

  PigDump

 17、下面的哪个PigLatin语句可以实现把表保存到文件?C

  load

  generate

  store

  dump

 18、以下哪种不是Hive支持的数据类型?C

  struct

  int

  long

  map

 19、下面关于使用hive的描述中不正确的是?A

  hive支持数据删除和修改

  hive中的join查询只支持等值链接,不支持非等值连接

  hive中的join查询支持左外连接,不支持右外连接

  hive默认仓库路径为/user/hive/warehouse/

 20、MapReduce程序运行过程中报错“Retrying connect to server:0.0.0.0/0.0.0.0:10020”,出现此表示哪个服务没有启动?A

  JobHistoryServer

  ResourceManager

  NodeManager

  HregionServer

第七章测验

1、对Flume描述不正确的是?B

  一个Agent中可以包含多个Source、Channel和Sink

  一个Sink以绑定多个Channel

  一个Source可以指定多个Channel

  Agent是Flume的核心

 2、Flume中,下面哪一个Source类型的功能是监控某个端口,将流经端口的文本行数据作为Event输入?C

  Avro Source

  Exec Source

  Spooling Directory Source

  Netcat Source

  Syslog Source

 3、Flume中,下面哪一个Source类型的基于Unix的命令在标准输出上生产数据?B

  Avro Source

  Exec Source

  Spooling Directory Source

  Netcat Source

  Syslog Source