大数据存储技术期末复习大数据与人工智能期末考试题库

发表时间：2023-07-30 06:20:39

大数据存储技术期末复习

单选题

1、以下关于云计算、大数据和物联网之间的关系，论述错误的是：A.物联网可以借助于云计算实现海量数据的存储B.物联网可以借助于大数据实现海量数据的分析C.云计算、大数据和物联网三者紧密相关，相辅相成D.云计算侧重于数据分析

2、启动hadoop所有进程的命令是:A.start-hadoop.shB.start-dfs.shC.start-all.shD.start-hdfs.sh

3、以下对Hadoop的说法错误的是：A.HadoopMapReduce是针对谷歌MapReduce的开源实现，通常用于大规模数据集的并行计算B.Hadoop是基于Java语言开发的，只支持Java语言编程C.Hadoop2.0增加了NameNodeHA和Wire-compatibility两个重大特性D.Hadoop的核心是HDFS和MapReduce

4、以下哪个不是Hadoop的特性:A.成本高B.高容错性C.高可靠性D.支持多种编程语言

5、对HDFS通信协议的理解错误的是:A.客户端通过一个可配置的端口向名称节点主动发起TCP连接，并使用客户端协议与名称节点进行交互B.客户端与数据节点的交互是通过RPC（RemoteProcedureCall）来实现的C.名称节点和数据节点之间则使用数据节点协议进行交互D.HDFS通信协议都是构建在IoT协议基础之上的

6、采用多副本冗余存储的优势不包含:A.加快数据传输速度B.容易检查数据错误C.节约存储空间D.保证数据可靠性

7、分布式文件系统HDFS采用了主从结构模型，由计算机集群中的多个节点构成的，这些节点分为两类，一类存储元数据叫()，另一类存储具体数据叫()A.名称节点，数据节点B.从节点，主节点C.数据节点，名称节点D.名称节点，主节点

8、下面关于分布式文件系统HDFS的描述正确的是：A.分布式文件系统HDFS是一种关系型数据库B.分布式文件系统HDFS比较适合存储大量零碎的小文件C.分布式文件系统HDFS是谷歌分布式文件系统GFS（GoogleFileSystem）的一种开源实现D.分布式文件系统HDFS是GoogleBigtable的一种开源实现

9、下列对HBase数据模型的描述错误的是:A.HBase中执行更新操作时，会删除数据旧的版本，并生成一个新的版本B.HBase是一个稀疏、多维度、排序的映射表，这张表的索引是行键、列族、列限定符和时间戳C.每个HBase表都由若干行组成，每个行由行键（rowkey）来标识D.HBase列族支持动态扩展，可以很轻松地添加一个列族或列

10、下列说法正确的是:A.HBase的实现包括的主要功能组件是库函数，一个Master主服务器和一个Region服务器B.Zookeeper是一个集群管理工具，常用于分布式计算，提供配置维护、域名服务、分布式同步等C.如果不启动Hadoop，则HBase完全无法使用D.如果通过HBaseShell插入表数据，可以插入一行数据或一个单元格数据

11、在HBase数据库中，每个Region的建议最佳大小是：A.500MB-1000MBB.100MB-200MBC.1GB-2GBD.2GB-4GB

12、HBase三层结构的顺序是:A.Zookeeper文件，.MEATA.表，-ROOT-表B.-ROOT-表，Zookeeper文件，.MEATA.表C…META.表，Zookeeper文件，-ROOT-表D.Zookeeper文件，-ROOT-表，.MEATA.表

13、下列关于NoSQL数据库和关系型数据库的比较，不正确的是：A.NoSQL数据库缺乏统一的查询语言，而关系型数据库有标准化查询语言B.NoSQL数据库的可扩展性比传统的关系型数据库更好C.NoSQL数据库很容易实现数据完整性，关系型数据库很难实现数据完整性D.NoSQL数据库具有弱一致性，关系型数据库具有强一致性

14、以下对各类数据库的理解错误的是:A.HBase数据库是列族数据库，可扩展性强，支持事务一致性B.图数据库灵活性高，支持复杂的图算法，可用于构建复杂的关系图谱C.文档数据库的数据是松散的，XML和JSON文档等都可以作为数据存储在文档数据库中D.键值数据库的键是一个字符串对象，值可以是任意类型的数据，比如整型和字符型等

15、下列数据库属于文档数据库的是:A.RedisB.MySQLC.HBaseD.MongoDB

16、NoSQL数据库的三大理论基石不包括:A.最终一致性B.ACIDC.BASED.CAP

17、下列关于UMP系统的说法不正确的是:A.UMP系统是低成本和高性能的MySQL云数据库方案B.Controller服务器向UMP集群提供各种管理服务，实现集群成员管理、元数据存储等功能C.Agent服务器部署在运行MySQL进程的机器上，用来管理每台物理机上的MySQL实例D.Mnesia是UMP系统的一个组件，是一个分布式数据库管理系统，且不支持事务

多选题

1、数据产生方式大致经历了三个阶段，包括：A.用户原创内容阶段B.移动互联网数据阶段C.运营式系统阶段D.感知式系统阶段

2、大数据发展的三个阶段是：A.成熟期B.低谷期C.萌芽期D.大规模应用期

3、大数据的特性包括：A.处理速度快B.价值密度低C.数据量大D.数据类型繁多

4、图领奖获得者、著名数据库专家JimGray博士认为，人类自古以来在科学研究上先后经历了哪几种范式：A.计算科学B.理论科学C.实验科学D.数据密集型科学

5、大数据带来思维方式的三个转变是：A.精确而非全面B.效率而非精确C.相关而非因果D.全样而非抽样

6、大数据主要有哪几种计算模式：A.查询分析计算B.批处理计算C.流计算D.图计算

7、云计算的典型服务模式包括三种：A.SaaSB.PaaSC.MaaSD.IaaS

8、以下哪些组件是Hadoop的生态系统的组件：A.OracleB.HDFSC.HBaseD.MapReduce

9、以下哪个命令可以用来操作HDFS文件:A.hdfsdfsB.hdfsfsC.hadoopfsD.hadoopdfs

10、以下对名称节点理解正确的是:A.名称节点作为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问B.名称节点用来负责具体用户数据的存储C.名称节点通常用来保存元数据D.名称节点的数据保存在内存中

11、以下对数据节点理解正确的是:A.数据节点通常只有一个B.数据节点的数据保存在磁盘中C.数据节点用来存储具体的文件内容D.数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作

12、HDFS只设置唯一一个名称节点带来的局限性包括:A.命名空间的限制B.集群的可用性C.性能的瓶颈D.隔离问题

13、以下HDFS相关的shell命令不正确的是:A.hadoopfs-ls：显示指定的文件的详细信息B.hdfsdfs-rm：删除路径指定的文件C.hadoopfs-copyFromLocal：将路径指定的文件或文件夹复制到路径指定的文件夹中D.hadoopdfsmkdir：创建指定的文件夹

14、下列对HBase的理解正确的是：A.HBase是一种关系型数据库，现成功应用于互联网服务领域B.HBase是针对谷歌BigTable的开源实现C.HBase多用于存储非结构化和半结构化的松散数据D.HBase是一个行式分布式数据库，是Hadoop生态系统中的一个组件

15、HBase和传统关系型数据库的区别在于哪些方面:A.数据操作B.存储模式C.数据模型D.数据索引

16、访问HBase表中的行，有哪些方式:A.通过单个行健访问B.通过一个行健的区间来访问C.全表扫描D.通过某列的值区间

17、关于NoSQL数据库和关系数据库，下列说法正确的是：A.NoSQL数据库可以支持超大规模数据存储，具有强大的横向扩展能力B.大多数NoSQL数据库很难实现数据完整性C.NoSQL数据库和关系数据库各有优缺点，但随着NoSQL的发展，终将取代关系数据库D.关系数据库有关系代数理论作为基础，NoSQL数据库没有统一的理论基础

18、NoSQL数据库的类型包括：A.图数据库B.键值数据库C.文档数据库D.列族数据库

19、CAP是指:A.分区容忍性B.一致性C.可用性D.持久性

20、NoSQL数据库的BASE特性是指:A.持续性B.软状态C.基本可用D.最终一致性

21、UMP依赖的开源组件包括:A.LVSB.RabbitMQC.MnesiaD.ZooKeeper

人工智能

（1）K-means算法首先需要选择K个初始化聚类中心（2）计算每个数据对象到K个初始化聚类中心的距离，将数据对象分到距离聚类中心最近的那个数据集中，当所有数据对象都划分以后，就形成了K个数据集（即K个簇）（3）接下来重新计算每个簇的数据对象的均值，将均值作为新的聚类中心（4）最后计算每个数据对象到新的K个初始化聚类中心的距离，重新划分（5）每次划分以后，都需要重新计算初始化聚类中心，一直重复这个过程，直到所有的数据对象无法更新到其他的数据集中。

大数据存储技术期末复习 大数据与人工智能期末考试题库