人工智能期末试题及答案
一单项选择题(每小题2分,共10分)1.首次提出“人工智能”是在(D)年
A.1946 B.1960 C.1916 D.1956
2.人工智能应用研究的两个最重要最广泛领域为:B
A.专家系统、自动规划 B.专家系统、机器学习
C.机器学习、智能控制 D.机器学习、自然语言理解
3.下列不是知识表示法的是 A 。
A:计算机表示法 B:“与/或”图表示法
C:状态空间表示法 D:产生式规则表示法
4.下列关于不确定性知识描述错误的是 C 。
A:不确定性知识是不可以精确表示的
B:专家知识通常属于不确定性知识
C:不确定性知识是经过处理过的知识
D:不确定性知识的事实与结论的关系不是简单的“是”或“不是”。
5.下图是一个迷宫,S0是入口,Sg是出口,把入口作为初始节点,出口作为目标节点,通道作为分支,画出从入口S0出发,寻找出口Sg的状态树。根据深度优先搜索方法搜索的路径是 C 。
A:s0-s4-s5-s6-s9-sg B:s0-s4-s1-s2-s3-s6-s9-sg
C:s0-s4-s1-s2-s3-s5-s6-s8-s9-sg D:s0-s4-s7-s5-s6-s9-sg
二 填空题(每空2分,共20分)1.目前人工智能的主要学派有三家:符号主义、 进化主义 和 连接主义 。
2.问题的状态空间包含三种说明的集合, 初始状态集合S、操作符集合F以及目标状态集合G。
3、启发式搜索中,利用一些线索来帮助足迹选择搜索方向,这些线索称为 启发式(Heuristic)信息。
4、计算智能是人工智能研究的新内容,涉及 神经计算、模糊计算和 进化计算等。
5、不确定性推理主要有两种不确定性,即关于 结论的不确定性和关于 证据的不确定性。
三名称解释(每词4分,共20分)人工智能 专家系统 遗传算法 机器学习 数据挖掘
答:
(1)人工智能
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等
(2)专家系统
专家系统是一个含有大量的某个领域专家水平的知识与经验智能计算机程序系统,能够利用人类专家的知识和解决问题的方法来处理该领域问题.简而言之,专家系统是一种模拟人类专家解决领域问题的计算机程序系统
(3)遗传算法
遗传算法是一种以“电子束搜索”特点抑制搜索空间的计算量爆炸的搜索方法,它能以解空间的多点充分搜索,运用基因算法,反复交叉,以突变方式的操作,模拟事物内部多样性和对环境变化的高度适应性,其特点是操作性强,并能同时避免陷入局部极小点,使问题快速地全局收敛,是一类能将多个信息全局利用的自律分散系统。运用遗传算法(GA)等进化方法制成的可进化硬件(EHW),可产生超出现有模型的技术综合及设计者能力的新颖电路,特别是GA独特的全局优化性能,使其自学习、自适应、自组织、自进化能力获得更充分的发挥,为在无人空间场所进行自动综合、扩展大规模并行处理(MPP)以及实时、灵活地配置、调用基于EPGA的函数级EHW,解决多维空间中不确定性的复杂问题开通了航向
(4)机器学习
机器学习(MachineLearning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎
(5)数据挖掘
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
四 简答题(每小题5分,共30分)1. 人工智能有哪些研究领域和应用领域?
答:(1)研究领域
自然语言处理,知识表现,智能搜索,推理,规划,机器学习,知识获取,组合调度问题,感知问题,模式识别,逻辑程序设计,软计算,不精确和不确定的管理,人工生命,神经网络,复杂系统,遗传算法
(2)应用领域
智能控制,机器人学,语言和图像理解,遗传编程
2. 简述模式识别的基本过程
答:(1)信息获取
(2)预处理:对获取信号进行规范化等各种处理(3)特征提取与选择:将识别样本构造成便于比较、分析的描述量即特征向量(4)分类器设计:由训练过程将训练样本提供的信息变为判别事物的判别函数(5)分类决策:对样本特征分量按判别函数的计算结果进行分类
3.状态空间法、谓词逻辑法和语义网络的要点分别是什么?
答:(1)状态空间法是以状态和算符为基础来表示和求解问题的,三个要点是:状态,算符,问题的状态空间
(2)谓词逻辑法要点:命题真值,论域与谓词,连接词和量词,项与合式公式,自由变元和约束变元
(3)语义网络要点:类属关系,包含关系,属性关系,时间关系,位置关系,相近关系,推论关系
4.简述Agent的定义和基本特征
答:(1)Agent定义:Agent指的是一种实体,而且是一种具有智能的实体。这种实体可以是智能软件、智能设备、智能机器人或智能计算机系统等等,甚至也可以是人
(2)Agent基本特征:
a.自主性
Agent具有属于其自身的计算资源和局部于自身的行为控制机制,能够在没有外界直接操纵的情况下,根据其内部状态和感知到的环境信息,决定和控制自身的行为。例如,SNMP中的agent就是独立运行在被管理单元上的自主进程。
b.交互性
Agent能够与其他Agent(包括人),用Agent通信语言实施灵活多样的交互,能够有效地与其他Agent协同工作。例如,一个Internet上的用户需要使用Agent通信语言向主动服务Agent陈述信息需求。
c.反应性
Agent能够感知所处的环境(可能是物理世界,操纵图形界面的用户,或其他Agent等),并对相关事件作出适时反应。例如,一个模拟飞机的Agent能够对用户的操纵作出适时反应。
d.主动性
Agent能够遵循承诺采取主动行动,表现出面向目标的行为。例如,一个Internet上的主动服务Agent,在获得新的信息之后能够按照约定主动将其提交给需要的用户;一个工作流管理Agent,能够按照约定将最新的工作进展情况主动通报给有关的工作站
5. 根据自己的理解给出人工神经网络的定义,并指出其特征。
答:(1)人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型 (2)特征:a.非线性非线性关系是自然界的普遍特性。大脑智慧就是一种非线性现象。人工神经元处于激活或抑制二种不同的状态,这种行为在数学上表现为一种非线性 关系。具有阈值的神经元构成的网络具有更好的性能,可以提高容错性和存储量
b.非局限性一个神经网络通常由多个神经元广泛连接而成。一个系统的整体行为不仅取决于单个神经元的特征,而且可能主要由单元之间的相互作用、相互连接所决定。通过单元之间的大量连接模拟大脑的非局限性。联想记忆是非局限性的典型例子
c.非常定性人工神经网络具有自适应、自组织、自学习能力。神经网络不但处理的信息可以有各种变化,而且在处理信息的同时,非线性动力系统本身也在不断变化。经常采用迭代过程描写动力系统的演化过程
d.非凸性一个系统的演化方向,在一定条件下将取决于某个特定的状态函数。例如能量函数,它的极值相应于系统比较稳定的状态。非凸性是指这种函数有多个极值,故系统具有多个较稳定的平衡态,这将导致系统演化的多样性
6. 有一个农夫带一只狐狸、一只小羊和一篮菜过河。假设农夫每次只能带一样东西过河,考虑安全,无农夫看管时,狐狸和小羊不能在一起,小羊和菜篮不能在一起。试设计求解该问题的状态空间,并画出状态空间图。
答:以变量m、f、s、v分别指示农夫、狐狸、小羊、菜,且每个变量只可取值1(表示在左岸)或0(表示在右岸)。问题状态可以四元组(m、f、s、v)描述,设初始状态下均在左岸,目标状态下都到达右岸。从而,问题求解任务可描述为(1,1,1,1)->(0,0,0,0)
由于问题简单,状态空间中可能的状态总数为2×2×2×2=16,由于要遵从安全限制,合法的状态只有(除初、目状态外): 1110,1101,1011,1010,0101,0001,0010,0100;不合法状态有:0111,1000,1100,0011,0110,1001
设计二类操作算子:Lx、Rx,x为m、f、s、v时分别指示农夫独自,带狐狸,带小羊,带菜过河;状态空间图如下所示.由于Lx和Rx是互逆操作,故而解答路径可有无数条,但最近的只有二条;都是7个操作步
五.综述题(20分)1.(本题10分)对于八数码难题按下式定义估价函数:
f(x)=d(x)+h(x)
其中,d(x)为节点x的深度;h(x)是所有棋子偏离目标位置的曼哈顿距离(棋子偏离目标位置的水平距离和垂直距离和),例如下图所示的初始状态S0:8的曼哈顿距离为2;2的曼哈顿距离为1;1的曼哈顿距离为1;6的曼哈顿距离为1;h(S0)=5。
(1)用A*搜索法搜索目标,列出头三步搜索中的OPEN、CLOSED表的内容和当前扩展节点的f值。
(2)画出搜索树和当前扩展节点的f值。
解:(1)如下表
(2)搜索树如下图,右上角的数字是其估价函数值
2.(本题10)您认为《人工智能》课程的哪一部分内容对您的毕业设计或者您以后的工作特别有用?如果有,请叙述其原理;如果没有,请您谈谈人工智能的发展对人类有哪些的影响?
答:我认为人工智能的发展对人类的影响主要有以下五个方面
(1)劳务就业问题。由于人工智能能够代替人类进行各种脑力劳动,例如用专家系统代替管理人员或医生进行决策或诊断与治疗病人疾病,所以,将会使一部分人不得不改变他们的工种,甚至造成失业。人工智能在科技和工程中的应用,会使一些人失去介入信息处理活动(如规划、诊断、理解和决策等)的机会,甚至不得不改变自己的工作方式。
(2)社会结构变化。人们一方面希望人工智能和智能机器能够代替人类从事各种劳动,另一方面又担心它们的发展会引起新的社会问题。实际上,近十多年来,社会结构正在发生一种静悄悄的变化。
(3)思维方式与观念的变化。人工智能的发展与推广应用,将影响到人类的思维方式和传统观念,并使它们发生改变。过分地依赖计算机的建议而不加分析地接受,将会使智能机器用户的认知能力下降,并增加误解。
(4)心理上的威胁。人工智能还使一部分社会成员感到心理上的威胁,或叫做精神威胁。人们一般认为,只有人类才具有感知精神,而且以此与机器相别。如果有一天,这些人开始相信机器也能够思维和创作,那么他们可能会感到失望,甚至感到威胁。他们担心:有朝一日,智能机器的人工智能会超过人类的自然智能,使人类沦为智能机器和智能系统的奴隶。
(5)技术失控的危险。任何新技术最大危险莫过于人类对它失去了控制,或者是它落入那些企图利用新技术反对人类的人手中
机器学习期末复习题题库
1.属于监督学习的机器学习算法是:贝叶斯分类器
2.属于无监督学习的机器学习算法是:层次聚类
3.二项式分布的共轭分布是:Beta分布
4.多项式分布的共轭分布是:Dirichlet分布
5.朴素贝叶斯分类器的特点是:假设样本各维属性独立
6.下列方法没有考虑先验分布的是:最大似然估计
7.对于正态密度的贝叶斯分类器,各类协方差矩阵相同时,决策函数为:线性决策函数
8.下列属于线性分类方法的是:感知机
9.下列方法不受数据归一化影响的是:决策树
10.下列分类方法中不会用到梯度下降法的是:最小距离分类器
11.下列方法使用最大似然估计的是:Logistic回归
12.关于线性鉴别分析的描述最准确的是,找到一个投影方向,使得:类内距离最小,类间距离最大
13.SVM的原理的简单描述,可概括为:最大间隔分类
14.SVM的算法性能取决于:以上都有(核函数的选择、核函数的参数、软间隔参数C)
15.支持向量机的对偶问题是:凸二次优化
16.以下对支持向量机中的支撑向量描述正确的是:最大间隔支撑面上的向量
17.假定你使用阶数为2的线性核SVM,将模型应用到实际数据集上后,其训练准确率和测试准确率均为100%。现在增加模型复杂度(增加核函数的阶),会发生以下哪种情况:过拟合
18.避免直接的复杂非线性变换,采用线性手段实现非线性学习的方法是:核函数方法
19.关于决策树节点划分指标描述正确的是:信息增益越大越好
20.以下描述中,属于决策树策略的是:最大信息增益
21.集成学习中基分类器的选择如何,学习效率通常越好:分类器多样,差异大
22.集成学习中,每个基分类器的正确率的最低要求:50%以上
23.下面属于Bagging方法的特点是:构造训练集时采用Bootstraping的方式
24.下面属于Bagging方法的特点是:构造训练集时采用Bootstraping的方式
25.随机森林方法属于:Bagging方法
26.假定有一个数据集S,但该数据集有很多误差,采用软间隔SVM训练,阈值为C,如果C的值很小,以下哪种说法正确:会发生误分类现象
27.软间隔SVM的阈值趋于无穷,下面哪种说法正确:只要最佳分类超平面存在,它就能将所有数据全部正确分类
28.一般,K-NN最近邻方法在什么情况下效果好:样本较少但典型性较好
29.回归问题和分类问题的区别:前者预测函数值为连续值,后者为离散值
30.最小二乘回归方法的等效回归方法:线性均值和正态误差的最大似然回归
31.正则化的回归分析,可以避免:过拟合
32.“啤酒-纸尿布”问题讲述的是,超市购物中,通过分析购物单发现,买了纸尿布的男士,往往又买了啤酒。这是一个什么问题:关联分析
33.KL散度是根据什么构造的可分性判据:类概率密度
34.密度聚类方法充分考虑了样本间的什么关系:密度可达
35.混合高斯聚类中,运用了以下哪种过程:EM算法
36.主成分分析是一种什么方法:降维方法
37.PCA在做降维处理时,优先选取哪些特征:中心化样本的协方差矩阵的最大特征值对应特征向量
38.过拟合现象中:训练样本的测试误差最小,测试样本的正确识别率却很低
39.如右图所示有向图,节点G的马尔可夫毯为:{D,E,F,H,I,J}
40.如右图所示无向图,节点G的马尔可夫毯为:{D,E,I,J}
41.多层感知机方法中,可用作神经元的非线性激活函数:Logistic函数
42.在有限支撑集上,下面分布的熵最大:均匀分布
43.已知均值和方差,下面哪种分布的熵最大:高斯分布
44.以下模型中属于概率图模型的是:受限玻尔兹曼机
45.如右图所示有向图,以下陈述正确的有:B和G关于{C,F}条件独立
46.在标准化公式中,使用的目的是:防止分母为零
47.梯度下降算法的正确步骤是什么:4,3,1,5,2(初始化-输入-计算误差-改变权重以减小误差-迭代更新)
(1)计算预测值和真实值之间的误差
(2)迭代跟新,直到找到最佳权重
(3)把输入传入网络,得到输出值
(4)初始化随机权重和偏差
(5)对每一个产生误差的神经元,改变相应的(权重)值以减小误差
48.假如使用一个较复杂的回归模型来拟合样本数据,使用岭回归,调试正则化参数,来降低模型复杂度。若λ较大时,关于偏差和方差,下列说法正确的是:若λ较大时,偏差减小,方差减小
49.以下哪种方法会增加模型的欠拟合风险:数据增强
50.以下说法正确的是:除了EM算法,梯度下降也可求混合高斯模型的参数
51.在训练神经网络时,如果出现训练error过高,下列哪种方法不能大幅度降低训练error:增加训练数据
52.以下哪种激活函数可以导致梯度消失:Tanh
53.增加以下哪些超参数可能导致随机森林模型过拟合数据:(2)决策树的深度
54.以下关于深度网络训练的说法正确的是:D
A.训练过程需要用到梯度,梯度衡量了损失函数相对于模型参数的变化率
B.损失函数衡量了模型预测结果与真实值之间的差异
C.训练过程基于一种叫做反向传播的技术
D.其他选项都正确
55.以下哪一项在神经网络中引入了非线性:ReLU
56.在线性回归中使用正则项,你发现解的不少coefficient都是0,则这个正则项可能是:
L0-norm、L1-norm
57.关于CNN,以下结论正确的是:Pooling层用于减少图片的空间分辨率
58.关于k-means算法,正确的描述是:初始值不同,最终结果可能不同
59.下列关于过拟合现象的描述中,哪个是正确的:训练误差小,测试误差大
60.以下关于卷积神经网络,说法正确的是:卷积神经网络可以有多个卷积核,可以不同大小
61.LR模型的损失函数是:交叉熵
62.GRU和LSTM的说法正确的是:GRU的参数比LSTM的参数少
63.以下方法不可以用于特征降维的有:MonteCarlomethod
64.下列哪个函数不可以做激活函数:y=2x
65.有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是:x+2y=3
66.在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题:SVM算法中使用高斯核代替线性核
67.下方法中属于无监督学习算法的是:K-Means聚类
68.Bootstrap数据是什么意思:有放回地从总共N个样本中抽样n个样本
69.下面关于贝叶斯分类器描述错误的是:是基于后验概率,推导出先验概率
70.下面关于Adaboost算法的描述中,错误的是:同时独立地学习多个弱分类器
71.以下机器学习中,在数据预处理时,不需要考虑归一化处理的是:树形模型
72.二分类任务中,有三个分类器h1,h2,h3,三个测试样本x1,x2,x3。假设1表示分类结果正确,0表示错误,h1在x1,x2,x3的结果分别(1,1,0),h2,h3分别为(0,1,1),(1,0,1),按投票法集成三个分类器,下列说法正确的是:集成提高了性能
73.有关机器学习分类算法的Precision和Recall,以下定义中正确的是(假定tp=truepositive,tn=truenegative,fp=falsepositive,fn=falsenegative):Precision=tp/(tp+fp),Recall=tp/(tp+fn)
74.下列哪个不属于常用的文本分类的特征选择算法:主成分分析
75.在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计:极大似然估计
76.以下哪种距离会侧重考虑向量的方向:余弦距离
77.解决隐马模型中预测问题的算法是:维特比算法
78.在LogisticRegression中,如果同时加入L1和L2范数,会产生什么效果:可以做特征选择,并在一定程度上防止过拟合
79.普通反向传播算法和随时间的反向传播算法(BPTT)有什么技术上的不同:与普通反向传播不同的是,BPTT会在每个时间步长内叠加所有对应权重的梯度
80.梯度爆炸问题是指在训练深度神经网络的时候,梯度变得过大而损失函数变为无穷。在RNN中,下面哪种方法可以较好地处理梯度爆炸问题:梯度裁剪
81.当训练一个神经网络来作图像识别任务时,通常会绘制一张训练集误差和验证集误差图来进行调试。在下图中,最好在哪个时间停止训练:C