博舍

人工智能概念诞生60余年,谁是第一位提出者 首次提出人工智能是哪一年提出的概念

人工智能概念诞生60余年,谁是第一位提出者

现在一说起人工智能的起源,公认是1956年的达特茅斯会议。

1955年,美国西部计算机联合大会(WesternJointComputerConference)在洛杉矶召开,会中还套了个小会:“学习机讨论会”(SessiononLearningMachine)。讨论会的参加者中有两个人参加了第二年的达特茅斯会议,他们是塞弗里奇(OliverSelfridge)和纽厄尔(AllenNewell),塞弗里奇发表了一篇模式识别的文章,而纽厄尔则探讨了计算机下棋,他们分别代表两派观点。讨论会的主持人是神经网络的鼻祖之一皮茨(Pitts),他最后总结时说:“(一派人)企图模拟神经系统,而纽厄尔则企图模拟心智(mind)……但殊途同归。”皮茨眼可真毒,这预示了人工智能随后几十年关于“结构与功能”两个阶级、两条路线的斗争。

第二年的活动,一位前辈起了个当时看来别出心裁的名字:“人工智能夏季研讨会”(SummerResearchProjectonArtificialIntelligence)。

图为2006年,当事人重聚达特茅斯。

现在问题来了:

欢迎关注深蓝学院,参与每日一题▲

人工智能基础

第一章序论1.如果一个问题或者任务不可计算,那么对这个问题或任务的描述哪一句是正确的(C  )

A.该问题或任务所需计算时间是非线性增加的B.该问题或任务所需计算时间是线性增加的C.图灵机不可停机D.无法将该问题或任务所需数据一次性装入内存进行计算不可求解=图灵机不可停机,凡是可计算的函数都能用图灵机计算,凡是存在有效过程的计算都能被图灵机实现

2.下面哪一句话准确描述了摩尔定律(A  )

A.摩尔定律描述了计算机的计算速度每一年半增长一倍的规律B.摩尔定律描述了计算机内存大小随时间不断增长的规律C.摩尔定律描述了互联网所链接节点随时间不断增长的规律D.摩尔定律描述了计算机的体积大小随时间不断减少的规律

3.下面哪个方法于20世纪被提出来,用来描述对计算机智能水平进行测试(B )

A.费马定理B.图灵测试C.摩尔定律D.香农定律

 4.1955年,麦卡锡、明斯基、香农和诺切斯特四位学者首次提出“artificialintelligence(人工智能)”这个概念时,希望人工智能研究的主题是( D )

A.人工智能伦理B.避免计算机控制人类C.全力研究人类大脑D.用计算机来模拟人类智能人工智能的主题是:让机器能像人那样认知思考和学习,即用计算机模拟人工智能

5.下面哪一句话是正确的( D )

A.机器学习就是深度学习B.人工智能就是机器学习C.人工智能就是深度学习D.深度学习是一种机器学习的方法

机器学习可分为监督学习,无监督学习。区别在于监督学习的数据有标签,相当于只是做数据的区分。无监督学习没有数据标签,需要自己进行学习。

深度学习是机器学习的一种。

6.以逻辑规则为核心的逻辑推理、以数据驱动为核心的机器学习和以问题引导为核心的强化学习是三种人工智能的方法,下面哪一句话的描述是不正确的( A)

A.目前以数据驱动为核心的机器学习方法可从任意大数据(无论数据是具备标签还是不具备标签)中来学习数据模式,完成给定任务B.目前以数据驱动为核心的机器学习方法需要从具有标签的大数据中来学习数据模式,完成给定任务C.强化学习的基本特征是智能体与环境不断进行交互,在交互过程不断学习来完成特定任务D.以逻辑规则为核心的逻辑推理方法解释性强

强化学习是和环境交互,得到某个行动的评价,然后找到最优路径。AlphaGo和人类棋手对弈就是强化学习。

 7.下面对人类智能和机器智能的描述哪一句是不正确的( B )

A.人类智能具备直觉和顿悟能力,机器智能很难具备这样的能力B.人类智能和机器智能均具备常识,因此能够进行常识性推理C.人类智能具有自适应特点,机器智能则大多是“依葫芦画瓢”D.人类智能能够自我学习,机器智能大多是依靠数据和规则驱动

8.我们常说“人类是智能回路的总开关”,即人类智能决定着任何智能的高度、广度和深度,下面哪一句话对这个观点的描述不正确( D)

A.机器智能和人类智能相互协同所产生的智能能力可超越人类智能或机器智能B.机器智能目前无法完全模拟人类所有智能C.人类智能是机器智能的设计者D.机器智能目前已经超越了人类智能

9.下面哪句话描述了现有深度学习这一种人工智能方法的特点(A )

A.小数据,大任务B.大数据,大任务C.大数据,小任务D.小数据,小任务

深度学习是有监督学习的一种,这个小大的描述很迷。

10.德国著名数学家希尔伯特在1900年举办的国际数学家大会中所提出的“算术公理的相容性(thecompatibilityofthearithmeticalaxioms)”这一问题推动了可计算思想研究的深入。在希尔伯特所提出的这个问题中,一个算术公理系统是相容的需要满足三个特点。下面哪个描述不属于这三个特点之一(D )

A.完备性,即所有能够从该形式化系统推导出来的命题,都可以从这个形式化系统推导出来。B.一致性,即一个命题不可能同时为真或为假C.可判定性,即算法在有限步内判定命题的真伪D.复杂性,即算法性能与输入数据大小相关

记住形式化系统的三个特征:可判断性,完备性,一致性。

第二章命题与逻辑

析取:V

合取:

假言推理:

与消解:

与导入:

双重否定

消解、归结:,

FOIL算法

输入目标谓词,背景知识样例,正例和反例,得到推理结果。

比如Father(x,y)代表x是y的父亲,已知其他的谓词:Mother(x,y),Sibling(x,y),Couple(x,y)

已知样例和反例(比如A是B的父亲,A和C是couple=>则A不是C父亲为反例)

最后得到推理结果,例如:(Mother(x,y)VCouple(z,x))->Father(z,y)(x是y的母亲,zx为夫妻,则z是y的父亲)

伪代码:

while(推理规则覆盖任何反例)begin

对于所有未添加的规则,计算信息增益:(m*是指新的,m是指之前的。)

选择信息增益最大的添加入推理规则

删去不符合推理规则的样例

end

如何计算信息增益:

对于一条规则,其和已知规则组合在一起,统计m+为正例数量,m-为反例数量。

比如Couple(x,y)的信息增益:当前没有已知信息,因此规则为

Couple(x,y)->Father(x,y)

Couple(x,z)->Father(x,y)

Couple(z,y)->Father(x,y)

....

这里有几个人就需要几个Couple,比如4个人,就有C(4,2)=6个式子,Father里的x,y是不变的

 1.如果命题p为真、命题q为假,则下述哪个复合命题为真命题(C)A.如果p则qB.非pC.如果q则p D. p且q 2.下面哪个复合命题与“如果秋天天气变凉,那么大雁南飞越冬”是逻辑等价的(B)

A.如果大雁不南飞越冬,那么秋天天气变凉

B.如果大雁不南飞越冬,那么秋天天气没有变凉

C.如果秋天天气变凉,那么大雁不南飞越冬D.如果秋天天气没有变凉,那么大雁不南飞越冬

逆否命题等价

3.下面哪一句话对命题逻辑中的归结(resolution)规则的描述是不正确的( D )

A.在两个析取复合命题中,如果命题q及其反命题分别出现在这两个析取复合命题中,则通过归结法可得到一个新的析取复合命题,只是在析取复合命题中要去除命题q及其反命题。

B.对命题q及其反命题应用归结法,所得到的命题为假命题

C.如果命题q出现在一个析取复合命题中,命题q的反命题单独存在,则通过归结法可得到一个新的析取复合命题,只是在析取复合命题中要去除命题q及其反命题。D.对命题q及其反命题应用归结法,所得到的命题为空命题q及其反命题归结,得到的是4.下面哪一句话对命题范式的描述是不正确的( D )A.有限个简单合取式构成的析取式称为析取范式B.一个合取范式是成立的,当且仅当它的每个简单析取式都是成立的C.有限个简单析取式构成的合取式称为合取范式D.一个析取范式是不成立的,当且仅当它包含一个不成立的简单合取式

析取是或,因此只要包含至少一个不成立即可。

5.下面哪个逻辑等价关系是不成立的(  A)A.B. C.D.6.下面哪个谓词逻辑的推理规则是不成立的(C  )A.B.C.D.7.知识图谱可视为包含多种关系的图。在图中,每个节点是一个实体(如人名、地名、事件和活动等),任意两个节点之间的边表示这两个节点之间存在的关系。下面对知识图谱的描述,哪一句话的描述不正确(B )A.知识图谱中的节点可以是实体或概念B.知识图谱中两个节点之间仅能存在一条边C.知识图谱中一条边可以用一个三元组来表示D.知识图谱中一条边连接了两个节点,可以用来表示这两个节点存在某一关系8.如果知识图谱中有David和Mike两个节点,他们之间具有classmate和brother关系。在知识图谱中还存在其他丰富节点和丰富关系(如couple,parent等)前提下,下面描述不正确的是( A )A.仅可从知识图谱中找到classmate和brother这个谓词的正例,无法找到这两个谓词的反例。B.可以从知识图谱中形成classmate的表达,这里classmate是谓词。

C.可以从知识图谱中形成brother的表达,这里brother是谓词。

D.可从知识图谱中找到classmate和brother这个谓词的正例和反例。如果存在Couple或者其他的谓词关系就是反例。9.在一阶归纳学习中,只要给定目标谓词,FOIL算法从若干样例出发,不断测试所得到推理规则是否还包含反例,一旦不包含负例,则学习结束,展示了“归纳学习”能力。下面所列出的哪个样例,不属于FOIL在学习推理规则中所利用的样例。A.信息增益超过一定阈值推理规则涵盖的例子B.所得到推理规则涵盖的正例C.背景知识样例D.所得到推理规则涵盖的反例注意样例中的反例逐渐被去除,正例可以选择加或者不加(书上并没有说要加)但是信息增益超过阈值的肯定不对,因为选的是最大的那一个,没有阈值之说。10.下面对一阶归纳推理(FOIL)中信息增益值(informationgain)阐释不正确的是( B )A.信息增益值用来判断向推理规则中所加入前提约束谓词的质量。B.信息增益值大小与背景知识样例数目有关。C.在算法结束前,每次向推理规则中加入一个前提约束谓词,该前提约束谓词得到的新推理规则具有最大的信息增益值。D.在计算信息增益值过程中,需要利用所得到的新推理规则和旧推理规则分别涵盖的正例和反例数目。

与正反例数目有关,与背景知识样例无关。(背景知识指的是不能既是父亲又是Couple这样的)

1.基于知识图谱的路径排序推理方法可属于如下哪一种方法( D  )

A.因果推理

B.监督学习(即利用标注数据)

C.无监督学习(即无标注数据)

D.一阶逻辑推理

对已知的路径关系进行学习,如果是正例则为路径为1,如果是负例则路径为-1,因此为监督学习

2.下面哪个步骤不属于基于知识图谱的路径排序推理方法中的一个步骤(  A)

A.定义和选择do算子操作

B.定义和选择若干标注训练数据

C.定义和选择某一特定的分类器

D.定义和选择训练数据的特征

定义do算子是干预因果关系

第三章搜索求解

边缘集合:下一步用来搜索的点的集合

闭表:所有扩展过的结点的状态(已经被遍历)

扩展:将结点的后继结点加入边缘集合

广度优先:总是从边缘集合中取出最上层的点

深度优先:总是从边缘集合中取出最下层的点

搜索树的流程:

将根节点加入到边缘集合F

while(F非空)begin

1.从F中挑选一个结点n

2.将n从F中去除

3.if(n符合条件) returnn.path

4.扩展n,将后继结点全部加入边缘集合

end

图搜索的流程:

将源节点加入到边缘集合F

将闭表C赋值为空

while(F非空)begin

1.从F中挑选一个结点n

2.将n从F中去除

3.if(n符合条件) returnn.path

4.如果n没有被扩展,那么扩展n

将n加入闭表C

将n的所有未加入的后继结点加入边缘集合

end

剪枝搜索

对于某些结点并不进行扩展

启发式搜索

启发函数:h(n)表示结点n到目标结点的距离或者代价

评价函数:f(n)表示结点n挑选的优先度,若边缘集合中评价函数越小,优先级别越高

贪婪优先搜索

使得评价函数赋值为启发函数,即距离结果越近的结点越优先挑选。

A*搜索

定义结点到源点的距离或代价为g(x)

评价函数f(x)=g(x)+h(x)

评价函数是启发函数和离源点距离之和,保证了源点到目标结点的距离总是最小的。

对抗搜索

状态:player(s)给出了状态s下当前行动的智能体

动作:actions(s)给出了当前状态下智能体可进行的操作

状态转移:result(s,a)状态s通过动作a转移

终局得分和终局状态检测:给出玩家的得分和确定游戏是否结束

最大最小搜索

将自己的分数最大化即是将对手的分数最小化。由于终局的分数是评价某一个玩家的,另一个玩家的目标是必须使得终局的分数最小化,即将对手的分数最小化。

Alpha-Beta剪枝搜索

在边缘集合中挑选点的时候,往往会将其不断扩展直到终局以计算得分。

每一个结点的得分是这个结点边缘集合中的最优得分。

每个结点都有一个alpha值和beta值,根结点分别为负无穷和正无穷,其余结点继承根结点。

当alpha>beta时,结点不会被访问

MAX:

对于边缘层的每一个点a:

调用MIN得到这一点的分数。

如果分数大于目前最大值,则更新最优解和最大值

如果分数大于alpha,则更新alpha

如果alpha>beta则返回分数和最优解

MIN:

对于边缘层的每一个点a:

调用MAX得到这一点的分数。

如果分数小于目前最小值,则更新最优解和最小值

如果分数小于beta,则更新beta

如果alpha>beta则返回分数和最优解

赌博机问题

贪心算法:摇动某一个赌博机,由于其他赌博机的试验不足,因此估计误差较大(过度利用)

epsilon算法:epsilon的概率随机摇动,1-epsilon的概率摇动当前最优解。

UCB算法:根据选择的不确定度和得到的收益估计收益范围,选择收益的可能值较大的步骤,成为上限置信区间。当均值相同时,不确定度越大,上限越高。当不确定度类似时,均值越大,上限越高。

蒙特卡洛搜索树算法

选择:从根节点开始,递归选择当前UCB值最高的结点。直到找到一个未被扩展的结点。

扩展:随机扩展一个子节点。

模拟:随机模拟扩展该子节点直到终局

反向传播:根据终局的得分更新路径中的Q和N

1.在启发式搜索(有信息搜索)中,评价函数的作用是(C)

A.判断搜索算法的空间复杂度

B.判断搜索算法的时间复杂度

C.从当前节点出发来选择后续节点

D.计算从当前节点到目标节点之间的最小代价值

评价函数评价每个后继结点离目标结点的距离,选择最优的结点

2.在启发式搜索(有信息搜索)中,启发函数的作用是(D)

A.从当前节点出发来选择后续节点

B.判断搜索算法的时间复杂度

C.判断搜索算法的空间复杂度 

D.计算从当前节点到目标节点之间的最小代价值

3.在贪婪最佳优先搜索中,评价函数取值和启发函数取值之间的关系是(A )

A.相等

B.不等于

C.小于

D.大于

4.在A*搜索算法中,评价函数可以如下定义(C)

A.评价函数之值=(从起始节点出发到当前节点最小开销代价)/(从当前节点出发到目标结点最小开销代价)

B.评价函数之值=(从起始节点出发到当前节点最小开销代价)-(从当前节点出发到目标结点最小开销代价)

C.评价函数之值=(从起始节点出发到当前节点最小开销代价)+(从当前节点出发到目标结点最小开销代价)

D.评价函数之值=(从起始节点出发到当前节点最小开销代价)*(从当前节点出发到目标结点最小开销代价)

5.A*算法是一种有信息搜索算法,在最短路径搜索中引入的辅助信息是( B )

A.任意一个城市到起始城市之间直线距离

B.任意一个城市到目标城市之间直线距离

C.旅行者兴趣偏好信息

D.路途中天气和交通状况等信息

不清楚什么原因,辅助信息的意思是辅助智能体做出决策的信息,而A*算法考虑了每一个城市到目标距离和到源点的距离,个人决定AB都对

6.下面对Alpha-Beta剪枝搜索算法描述中,哪句描述是不正确的( D)

A.节点先后次序会影响剪枝效率

B.剪枝本身不影响算法输出结果

C.在大多数情况下,剪枝会提高算法效率

D.节点先后次序不会影响剪枝效率

显然剪枝的效率会和遍历的顺序有关

7.Alpha和Beta两个值在Alpha-Beta剪枝搜索中被用来判断某个节点的后续节点是否可被剪枝,下面对Alpha和Beta的初始化取值描述正确的是(C  )

A.Alpha的初始值大于Beta的初始值

B.Alpha和Beta初始值分别为正无穷大和负无穷大

C. Alpha和Beta初始值分别为负无穷大和正无穷大

D.Alpha和Beta可随机初始化

8.下面对上限置信区间(UpperConfidenceBound,UCB)算法在多臂赌博机中的描述,哪句描述是不正确的(A )

A.UCB算法每次随机选择一个赌博机来拉动其臂膀

B. UCB算法在探索-利用(exploration-exploitation)之间寻找平衡

C.UCB算法既考虑拉动在过去时间内获得最大平均奖赏的赌博机,又希望去选择那些拉动臂膀次数最少的赌博机

D.UCB算法是优化序列决策问题的方法

如果平均奖赏大,则均值高,如果拉动次数少,则不确定度大,拉动的时候考虑的是均值+不确定度,因此不是完全随机的

9.下面哪一种有序组合是蒙特卡洛树搜索中一次正确的迭代步骤(C  )

A.扩展、模拟、采样、选举

B.反向传播、选举、扩展、模拟

C.选举、扩展、模拟、反向传播

D.反向传播、扩展、模拟、选举

10.下面对minimax搜索、alpha-beta剪枝搜索和蒙特卡洛树搜索的描述中,哪一句描述是不正确的(C )

A.三种搜索算法中,只有蒙特卡洛树搜索是采样搜索

B.minimax是穷举式搜索

C.对于一个规模较小的游戏树,alpha-beta剪枝搜索和minimax搜索的结果会不同

D. alpha-beta剪枝搜索和蒙特卡洛树搜索都是非穷举式搜索

第四章监督学习

机器学习:一种人工智能方法,机器从数据中自动学习知识

机器学习目标:从数据中提取特征,并通过函数f映射到语义空间中,寻找数据和目标任务的关系

监督学习:输入数据带有标签,多用于回归和训练集,输出的取值是有限的

无监督学习:输入数据不带有标签,多用于聚类或降维

半监督学习:数据部分带有标签

强化学习:智能体和环境交互,环境反馈的回报能够对智能体下一次决策产生影响

损失函数:即映射值f(y)和真值之间的差距

机器学习的三个步骤:在训练集上学习映射函数f,在测试集上测试函数f,在未知数据集上测试f

经验风险:训练样本集的平均损失

期望风险:损失的数学期望。扩大训练集,经验风险会不断逼近期望风险

训练集上表现好:经验风险小

测试集上表现好:期望风险小

泛化能力强:期望风险和经验风险都小

过学习:期望风险大,经验风险小

欠学习:两个都大

结构风险最小化:经验风险加上一个正则化项(惩罚项),该项和学习系数有关,若系数太大则惩罚项也会大

回归分析

回归分析:分析不同变量间的关系

回归模型:不同变量之间的关系的模型

一元线性回归:线性回归对离群点敏感

多元线性回归:略

逻辑斯蒂回归:引入sigmoid函数作为回归函数

一般做二分类:即将数据集划分为正例和反例

对逻辑斯蒂回归的正例取对数就得到了线性回归模型

决策树

每个非叶子结点代表一种属性,每个分支代表一种选择,每个叶子结点代表一种分类结果

建立决策树的过程就是选择属性值对样本进行划分

划分属性的顺序对于构建决策树产生影响

信息熵:信息熵越大说明集合的纯度(具有相同属性的数据所占比重)越低

信息增益:划分样本集前后信息熵的减少量,用来衡量样本不确定度的减少量

Adaboosting

1.数据样本权重初始化

2.训练M个基带分类器

首先根据数据样本训练对应的分类器

计算分类误差

根据分类误差弱化分类器的权值

更新训练样本和训练器的权值

3.根据权值线性组合弱分类器,得到强分类器

1.下面哪一种机器学习方法没有利用标注数据(C)

A.半监督学习

B.有监督学习

C.无监督学习

D.回归分析

无监督学习没有标注数据

2.下面对经验风险和期望风险的描述中,哪一个属于欠学习( D)

A.经验风险小、期望风险小

B.经验风险大、期望风险小

C.经验风险小、期望风险大

D.经验风险大、期望风险大

欠学习指在训练集上和测试集上表现都不好

3.下面对经验风险和期望风险的描述中,哪一个属于过学习(D )

A.经验风险大、期望风险小

B.经验风险小、期望风险小

C.经验风险大、期望风险大

D.经验风险小、期望风险大

过学习指的是训练集上表现好,但是泛化能力差,在测试集上表现不好。

4.监督学习方法又可以分为生成方法(generativeapproach)和判别方法(discriminativeapproach)。下面哪个方法不属于判别方法(B  )

A.回归模型

B.贝叶斯方法

C.神经网络

D.Adaboosting

生成方法:贝叶斯法,隐马尔科夫链法,其他的是判别方法

判别方法考虑的是条件概率,输入作为条件时每个输出的概率,选择最高的那个

生成方法考虑联合概率,即输入和输出的联合分布

5.下面哪句话语较为恰当刻画了监督学习方法中生成方法的特点(C  )

A.毕其功于一役

B.三个臭皮匠、抵一个诸葛亮

C. 授之于鱼、不如授之于“渔”

D.屡败屡战、屡战屡败、最后成功

6.在线性回归模型中,所优化的目标函数是(A  )

A.最小化残差平方和的均值

B.最大化结构风险

C.最大化残差平方和的均值

D.最小化结构风险

7.线性回归中优化目标函数的求取过程与下面哪一种方法是相同的(  C)

A.最小化后验概率

B.最大后验概率

C.最小二乘法

D.最大似然估计

线性回归用到了最小二乘法

8.下面哪一句话对AdaBoosting的描述是不正确的( D  )

A.在所构成的强分类器中,每个弱分类器的权重是不一样的

B.该算法将若干弱分类器线性加权组合起来,形成一个强分类器

C.在每一次训练弱分类器中,每个样本的权重累加起来等于1

D.在所构成的强分类器中,每个弱分类器的权重累加起来等于1

强分类器的弱分类器并不要求为1

9.下面哪一句话对概率近似正确(probablyapproximatelycorrect,PAC)的描述是不正确的(   B    )

A. 在概率近似正确背景下,有“强可学习模型”和“弱可学习模型”

B.强可学习模型指学习模型仅能完成若干部分样本识别与分类,其精度略高于随机猜测

C.强可学习模型指学习模型能够以较高精度对绝大多数样本完成识别分类任务

D.强可学习和弱可学习是等价的,即如果已经发现了“弱学习算法”,可将其提升(boosting)为“强学习算法”

强可学习指可以完成绝大多数样本的任务,弱可学习指的是完成部分样本任务

10.下面对回归和分类的描述不正确的是( D  )

A.两者均是学习输入变量和输出变量之间潜在关系模型

B.在回归分析中,学习得到一个函数将输入变量映射到连续输出空间

C.在分类模型中,学习得到一个函数将输入变量映射到离散输出空间

D.回归是一种无监督学习、分类学习是有监督学习

都是有监督学习

第五章无监督学习k均值聚类

根据数据特征成分分类,簇内方差最小化。

要求特征变量连续,数据没有异常

易受初值影响,是局部最优。

通过减少簇内方差,实现簇内最大相似度。

收敛速度较快。

对于离群点较敏感。

硬聚类:只可能属于或者不属于一个聚类。即概率为0或者1

input:聚类数目和数据特征向量

初始化质心

while(未收敛)begin

1.对数据进行聚类(计算到K个质心的距离,放入最近的那个)

2.更新质心(将质心赋值为簇内数据的均值)

end

收敛条件是:

1.达到最大迭代次数

2.前后两次聚类质心保持不变

主成分分析

特征降维,用来消除噪声和冗余。

用数据的特征替代数据本身。

在数据方差最大的方向进行投影,使得最后数据的方差最大。

即将给定的n个数据减少到l个,保留原数据的特征。

input:n个d维向量,需要的特征向量个数l

output:特征向量

1.对向量去中心化(减去均值)

2.计算协方差矩阵

3.进行特征值分解,取特征值最大的前l个特征向量

协方差:如果等于0说明无关,如果大于0说明正相关,小于0说明负相关,绝对值越大说明相关性越强。

皮尔逊相关系数:将协方差归一化,取值为-1到1,0是无关,1是正相关,-1是负相关

相关性:比独立性更弱,如果不相关可能不独立,但是独立一定不相关。

特征人脸法

基于外观的人脸识别方法。

能够提取人脸的全局信息,但是对于细节表现不够。

input:样本人脸向量(转换为一个列向量)k维

output:特征人脸向量

1.计算均值人脸,并将样本人脸去中心化

2.对样本组成的矩阵进行奇异值分解,计算特征向量(得到和样本数一样多的特征人脸向量,取特征值最大的前n个)k,n维

3.将样本人脸向量行向量(1,k维)和n个特征向量组成的矩阵相乘(k,n维),可以得到特征人脸空间

潜在语义分析

从文本数据中学习单词,文档之间的关系。得到单词和文本的表达特征。

考虑单词在哪些文档中同时出现,以此来决定该词语的含义和其他词语的相似度

得到一个文档-单词关系的重建矩阵。

重建矩阵和原矩阵不一定相同,

重建矩阵捕获了单词-文档的关系,

重建矩阵中单词的分布可能和原矩阵中一致。

归属一文档的单词在重建矩阵中的值较为相近。

input:文档和关键单词

output:重建矩阵

1.得到文档单词矩阵:行列分别为文档和单词,如果文档中出现了该单词,则值为1,否则值为0.

2.将文档单词矩阵SVD分解为的形式,D是一个对角阵

单词向量:U的每一行称为单词向量

文档向量:V的每一行称为文档向量,注意分解得到的是V的转置

D表示了一个隐藏的空间,代表了单词和文档的关系

3.重建:选取D最大的几个特征值和特征向量对A进行重建。

重建后矩阵的值反应了文档和关键词的相关性。

1.由于K均值聚类是一个迭代过程,我们需要设置其迭代终止条件。下面哪句话正确描述了K均值聚类的迭代终止条件( A ) 

A.已经达到了迭代次数上限,或者前后两次迭代中聚类质心基本保持不变

B.已经达到了迭代次数上限,或者每个待聚类样本分别归属唯一一个聚类集合

C.已经形成了K个聚类集合,或者已经达到了迭代次数上限

D.已经形成了K个聚类集合,或者每个待聚类样本分别归属唯一一个聚类集合

2.我们可以从最小化每个类簇的方差这一视角来解释K均值聚类的结果,下面对这一视角描述不正确的是(  B)

A.最终聚类结果中每个聚类集合中所包含数据呈现出来差异性最小

B.每个簇类的质心累加起来最小

C.每个样本数据分别归属于与其距离最近的聚类质心所在聚类集合

D.每个簇类的方差累加起来最小

K均值聚类保证簇内方差最小,和质心大小没有关系

3.下面哪一句话描述不属于K均值聚类算法的不足( D  )

A.算法迭代执行

B.需要事先确定聚类数目 

C.需要初始化聚类质心 

D.K均值聚类是无监督聚类

四个选项描述都正确,但是D不算不足

4.下面对数据样本方差解释不正确的是( C  )

A.方差描述了样本数据在平均值附近的波动程度

B.方差(样本方差)是每个样本数据与全体样本数据平均值之差的平方和的平均数

C.方差刻画了样本数据的大小

D.方差刻画了随机变量或一组数据离散程度

方差和样本大小无关,表现的是离散程度

5.协方差可以用来计算两个变量之间的相关性,或者说计算两维样本数据中两个维度之间的相关性。基于计算所得的协方差值,可以来判断样本数据中两维变量之间是否存在关联关系。下面哪一个说法是不正确的( C )

A.当协方差值小于0时,则两个变量线性负相关

B.当协方差值等于0时,则两个变量线性不相关

C.当协方差值等于0时,则两个变量线性正相关

D.当协方差值大于0时,则两个变量线性正相关

等于0时无关。

6.皮尔逊相关系数(PearsonCorrelationcoefficient)可将两组变量之间的关联度规整到一定的取值范围内。下面对皮尔逊相关系数描述不正确的是(D)

A.皮尔逊相关系数的值域是[-1,1]

B.皮尔逊相关系数等于1的充要条件是该两组变量具有线性相关关系

C.皮尔逊相关系数是对称的

D.皮尔逊相关系数刻画了两组变量之间线性相关程度,如果其取值越大,则两者在线性相关的意义下相关程度越大;如果其值越小,表示两者在线性相关的意义下相关程度越小

对称意味着Cov(x,y)=Cov(y,x)

感觉B好像也不对,因为-1是负相关。

7.下面对相关性(correlation)和独立性(independence)描述不正确的是( C)

A.如果两维变量彼此独立,则皮尔逊相关系数等于0

B.如果两维变量线性不相关,则皮尔逊相关系数等于0

C.“不相关”是一个比“独立”要强的概念,即不相关一定相互独立

D.独立指两个变量彼此之间不相互影响

不相关比独立要弱。

8.下面对主成分分析的描述不正确的是(  D)

A.在主成分分析中,将数据向方差最大方向进行投影,可使得数据所蕴含信息没有丢失,以便在后续处理过程中各个数据“彰显个性”

B.主成份分析是一种特征降维方法

C.主成分分析可保证原始高维样本数据被投影映射后,其方差保持最大

D.在主成分分析中,所得低维数据中每一维度之间具有极大相关度

主成分分析是在方差最大的地方投影,使得数据方差最大,因此每一维代表不同的特征,相关性不大。

9.在主成分分析中,我们将带约束的最优化问题,通过拉格朗日乘子法将其转化为无约束最优化问题。下面对主成分分析中优化的目标函数和约束条件描述正确的是( B )

A.保证映射投影(即降维后)所得结果相关度最大以及投影后结果方差最大

B.保证映射投影(即降维后)所得结果方差最大以及投影方向正交(以去除冗余度)

C.保证映射投影方向之间的方差最大以及投影方向正交(以去除冗余度)

D.保证映射投影(即降维后)所得结果冗余度最小以及投影后结果方差最大

条件是在方差最大的方向正交投影,所有与方差最大方向垂直的不同都被忽略。

10.下面对特征人脸算法描述不正确的是( A  )

A.特征人脸之间的相关度要尽可能大

B.特征人脸方法是用一种称为“特征人脸(eigenface)”的特征向量按照线性组合形式来表达每一张原始人脸图像

C.特征人脸方法是一种应用主成分分析来实现人脸图像降维的方法

D.每一个特征人脸的维数与原始人脸图像的维数一样大

相关度没有要求。

加油还有两章! 

第六章深度学习 前馈神经网络

前馈神经网络:最基本的神经网络,包括输入层,输出层,隐藏层

每层指和相邻的神经元相连,只从相邻的前序神经元接受信息,只传输信息给相邻的后序神经元,邻序神经元不相连。

神经元:输入数据,线性加权求和后如果达到阈值则输出1,否则输出-1

激活函数:要求连续可导,非线性。将输入数据映射到语义空间。

sigmoid函数:输出为(0,1),可直接作为概率。单增。会有梯度消失的问题。

ReLU函数:,克服梯度消失的问题,x

人工智能的创新发展与社会影响

党的十八大以来,习近平总书记把创新摆在国家发展全局的核心位置,高度重视人工智能发展,多次谈及人工智能的重要性,为人工智能如何赋能新时代指明了方向。2018世界人工智能大会9月17日在上海开幕,习总书记致信祝贺并强调指出人工智能发展应用将有力提高经济社会发展智能化水平,有效增强公共服务和城市管理能力。深入学习领会习总书记关于人工智能的一系列重要论述,务实推进我国《新一代人工智能发展规划》,有效规避人工智能“鸿沟”,着力收获人工智能“红利”,对建设世界科技强国、实现“两个一百年”的奋斗目标具有重大战略意义。

一、引言

1956年人工智能(ArtificialIntelligence,简称AI)的概念被正式提出,标志着人工智能学科的诞生,其发展目标是赋予机器类人的感知、学习、思考、决策和行动等能力。经过60多年的发展,人工智能已取得突破性进展,在经济社会各领域开始得到广泛应用并形成引领新一轮产业变革之势,推动人类社会进入智能化时代。美国、日本、德国、英国、法国、俄罗斯等国家都制定了发展人工智能的国家战略,我国也于2017年发布了《新一代人工智能发展规划》,发改委、工信部、科技部、教育部等国家部委和北京、上海、广东、江苏等地政府也相继出台推动人工智能发展的相关政策文件,社会各界对人工智能的重大战略意义已形成广泛共识。

跟其他高科技一样,人工智能也是一把双刃剑。如何认识人工智能的社会影响,也有“天使派”和“魔鬼派”之分。“天使派”认为,人工智能领域的科技创新和成果应用取得重大突破,有望引领第四次工业革命,对社会、经济、军事等领域将产生变革性影响,在制造、交通、教育、医疗、服务等方面可以造福人类;“魔鬼派”认为,人工智能是人类的重大威胁,比核武器还危险,有可能引发第三次世界大战。2018年2月,牛津大学、剑桥大学和OpenAI公司等14家机构共同发布题为《人工智能的恶意使用:预测、预防和缓解》的报告,指出人工智能可能给人类社会带来数字安全、物理安全和政治安全等潜在威胁,并给出了一些建议来减少风险。

总体上看,已过花甲之年的人工智能当前的发展具有“四新”特征:以深度学习为代表的人工智能核心技术取得新突破、“智能+”模式的普适应用为经济社会发展注入新动能、人工智能成为世界各国竞相战略布局的新高地、人工智能的广泛应用给人类社会带来法律法规、道德伦理、社会治理等方面一系列的新挑战。因此人工智能这个机遇与挑战并存的新课题引起了全球范围内的广泛关注和高度重视。虽然人工智能未来的创新发展还存在不确定性,但是大家普遍认可人工智能的蓬勃兴起将带来新的社会文明,将推动产业变革,将深刻改变人们的生产生活方式,将是一场影响深远的科技革命。

为了客观认识人工智能的本质内涵和创新发展,本报告在简要介绍人工智能基本概念与发展历程的基础上,着重分析探讨人工智能的发展现状和未来趋势,试图揭示人工智能的真实面貌。很显然,在当下人工智能蓬勃发展的历史浪潮中如何选择中国路径特别值得我们深入思考和探讨。因此,本报告最后就我国人工智能发展态势、存在问题和对策建议也进行了阐述。

二、人工智能的发展历程与启示

1956年夏,麦卡锡(JohnMcCarthy)、明斯基(MarvinMinsky)、罗切斯特(NathanielRochester)和香农(ClaudeShannon)等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”,首次提出“人工智能”这一概念,标志着人工智能学科的诞生。人工智能的目标是模拟、延伸和扩展人类智能,探寻智能本质,发展类人智能机器。人工智能充满未知的探索道路曲折起伏,如何描述1956年以来60余年的人工智能发展历程,学术界可谓仁者见仁、智者见智。我们将人工智能60余年的发展历程划分为以下6个阶段:

一是起步发展期:1956年-20世纪60年代初。人工智能概念在1956年首次被提出后,相继取得了一批令人瞩目的研究成果,如机器定理证明、跳棋程序、LISP表处理语言等,掀起了人工智能发展的第一个高潮。

二是反思发展期:60年代-70年代初。人工智能发展初期的突破性进展大大提升了人们对人工智能的期望,人们开始尝试更具挑战性的任务,并提出了一些不切实际的研发目标。然而,接二连三的失败和预期目标的落空(例如无法用机器证明两个连续函数之和还是连续函数、机器翻译闹出笑话等),使人工智能的发展走入了低谷。

三是应用发展期:70年代初-80年代中。20世纪70年代出现的专家系统模拟人类专家的知识和经验解决特定领域的问题,实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。专家系统在医疗、化学、地质等领域取得成功,推动人工智能走入了应用发展的新高潮。

四是低迷发展期:80年代中-90年代中。随着人工智能的应用规模不断扩大,专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等问题逐渐暴露出来。

五是稳步发展期:90年代中-2010年。由于网络技术特别是互联网技术的发展,信息与数据的汇聚不断加速,互联网应用的不断普及加速了人工智能的创新研究,促使人工智能技术进一步走向实用化。1997年IBM深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫,2008年IBM提出“智慧地球”的概念,这些都是这一时期的标志性事件。

六是蓬勃发展期:2011年-至今。随着大数据、云计算、互联网、物联网等信息技术的发展,泛在感知数据和图形处理器(GraphicsProcessingUnit,简称GPU)等计算平台推动以深度神经网络为代表的人工智能技术飞速发展,大幅跨越科学与应用之间的“技术鸿沟”,图像分类、语音识别、知识问答、人机对弈、无人驾驶等具有广阔应用前景的人工智能技术突破了从“不能用、不好用”到“可以用”的技术瓶颈,人工智能发展进入爆发式增长的新高潮。

通过总结人工智能发展历程中的经验和教训,我们可以得到以下启示:

(一)尊重学科发展规律是推动学科健康发展的前提。科学技术的发展有其自身的规律,顺其者昌,违其者衰。人工智能学科发展需要基础理论、数据资源、计算平台、应用场景的协同驱动,当条件不具备时很难实现重大突破。

(二)基础研究是学科可持续发展的基石。加拿大多伦多大学杰弗里·辛顿(GeoffreyHinton)教授坚持研究深度神经网络30年,奠定人工智能蓬勃发展的重要理论基础。谷歌的DeepMind团队长期深入研究神经科学启发的人工智能等基础问题,取得了阿尔法狗等一系列重大成果。

(三)应用需求是科技创新的不竭之源。引领学科发展的动力主要来自于科学和需求的双轮驱动。人工智能发展的驱动力除了知识与技术体系内在矛盾外,贴近应用、解决用户需求是创新的最大源泉与动力。比如专家系统人工智能实现了从理论研究走向实际应用的突破,近些年来安防监控、身份识别、无人驾驶、互联网和物联网大数据分析等实际应用需求带动了人工智能的技术突破。

(四)学科交叉是创新突破的“捷径”。人工智能研究涉及信息科学、脑科学、心理科学等,上世纪50年代人工智能的出现本身就是学科交叉的结果。特别是脑认知科学与人工智能的成功结合,带来了人工智能神经网络几十年的持久发展。智能本源、意识本质等一些基本科学问题正在孕育重大突破,对人工智能学科发展具有重要促进作用。

(五)宽容失败应是支持创新的题中应有之义。任何学科的发展都不可能一帆风顺,任何创新目标的实现都不会一蹴而就。人工智能60余载的发展生动地诠释了一门学科创新发展起伏曲折的历程。可以说没有过去发展历程中的“寒冬”就没有今天人工智能发展新的春天。

(六)实事求是设定发展目标是制定学科发展规划的基本原则。达到全方位类人水平的机器智能是人工智能学科宏伟的终极目标,但是需要根据科技和经济社会发展水平来设定合理的阶段性研究目标,否则会有挫败感从而影响学科发展,人工智能发展过程中的几次低谷皆因不切实际的发展目标所致。

三、人工智能的发展现状与影响

人工智能经过60多年的发展,理论、技术和应用都取得了重要突破,已成为推动新一轮科技和产业革命的驱动力,深刻影响世界经济、政治、军事和社会发展,日益得到各国政府、产业界和学术界的高度关注。从技术维度来看,人工智能技术突破集中在专用智能,但是通用智能发展水平仍处于起步阶段;从产业维度来看,人工智能创新创业如火如荼,技术和商业生态已见雏形;从社会维度来看,世界主要国家纷纷将人工智能上升为国家战略,人工智能社会影响日益凸显。

(一)专用人工智能取得重要突破。从可应用性看,人工智能大体可分为专用人工智能和通用人工智能。面向特定领域的人工智能技术(即专用人工智能)由于任务单一、需求明确、应用边界清晰、领域知识丰富、建模相对简单,因此形成了人工智能领域的单点突破,在局部智能水平的单项测试中可以超越人类智能。人工智能的近期进展主要集中在专用智能领域,统计学习是专用人工智能走向实用的理论基础。深度学习、强化学习、对抗学习等统计机器学习理论在计算机视觉、语音识别、自然语言理解、人机博弈等方面取得成功应用。例如,阿尔法狗在围棋比赛中战胜人类冠军,人工智能程序在大规模图像识别和人脸识别中达到了超越人类的水平,语音识别系统5.1%的错误率比肩专业速记员,人工智能系统诊断皮肤癌达到专业医生水平,等等。

(二)通用人工智能尚处于起步阶段。人的大脑是一个通用的智能系统,能举一反三、融会贯通,可处理视觉、听觉、判断、推理、学习、思考、规划、设计等各类问题,可谓“一脑万用”。真正意义上完备的人工智能系统应该是一个通用的智能系统。虽然包括图像识别、语音识别、自动驾驶等在内的专用人工智能领域已取得突破性进展,但是通用智能系统的研究与应用仍然是任重而道远,人工智能总体发展水平仍处于起步阶段。美国国防高级研究计划局(DefenseAdvancedResearchProjectsAgency,简称DARPA)把人工智能发展分为三个阶段:规则智能、统计智能和自主智能,认为当前国际主流人工智能水平仍然处于第二阶段,核心技术依赖于深度学习、强化学习、对抗学习等统计机器学习,AI系统在信息感知(Perceiving)、机器学习(Learning)等智能水平维度进步显著,但是在概念抽象(Abstracting)和推理决策(Reasoning)等方面能力还很薄弱。总体上看,目前的人工智能系统可谓有智能没智慧、有智商没情商、会计算不会“算计”、有专才无通才。因此,人工智能依旧存在明显的局限性,依然还有很多“不能”,与人类智慧还相差甚远。

(三)人工智能创新创业如火如荼。全球产业界充分认识到人工智能技术引领新一轮产业变革的重大意义,纷纷调整发展战略。比如,在其2017年的年度开发者大会上,谷歌明确提出发展战略从“MobileFirst”(移动优先)转向“AIFirst”(AI优先);微软2017财年年报首次将人工智能作为公司发展愿景。人工智能领域处于创新创业的前沿,麦肯锡报告2016年全球人工智能研发投入超300亿美元并处于高速增长,全球知名风投调研机构CBInsights报告显示2017年全球新成立人工智能创业公司1100家,人工智能领域共获得投资152亿美元,同比增长141%。

(四)创新生态布局成为人工智能产业发展的战略高地。信息技术(IT)和产业的发展史就是新老IT巨头抢滩布局IT创新生态的更替史。例如,传统信息产业IT(InformationTechnology)代表企业有微软、英特尔、IBM、甲骨文等,互联网和移动互联网IT(InternetTechnology)代表企业有谷歌、苹果、脸书、亚马逊、阿里巴巴、腾讯、百度等,目前智能科技IT(IntelligentTechnology)的产业格局还没有形成垄断,因此全球科技产业巨头都在积极推动AI技术生态的研发布局,全力抢占人工智能相关产业的制高点。人工智能创新生态包括纵向的数据平台、开源算法、计算芯片、基础软件、图形处理GPU服务器等技术生态系统和横向的智能制造、智能医疗、智能安防、智能零售、智能家居等商业和应用生态系统。在技术生态方面,人工智能算法、数据、图形处理器(GraphicsProcessingUnit,简称GPU)/张量处理器(TensorProcessingUnit,简称TPU)/神经网络处理器(NeuralnetworkProcessingUnit,NPU)计算、运行/编译/管理等基础软件已有大量开源资源,例如谷歌的TensorFlow第二代人工智能学习系统、脸书的PyTorch深度学习框架、微软的DMTK分布式学习工具包、IBM的SystemML开源机器学习系统等;此外谷歌、IBM、英伟达、英特尔、苹果、华为、中国科学院等积极布局人工智能领域的计算芯片。在人工智能商业和应用生态布局方面,“智能+X”成为创新范式,例如“智能+制造”、“智能+医疗”、“智能+安防”等,人工智能技术向创新性的消费场景和不同行业快速渗透融合并重塑整个社会发展,这是人工智能作为第四次技术革命关键驱动力的最主要表现方式。人工智能商业生态竞争进入白热化,例如智能驾驶汽车领域的参与者既有通用、福特、奔驰、丰田等传统龙头车企,又有互联网造车者如谷歌、特斯拉、优步、苹果、百度等新贵。

(五)人工智能上升为世界主要国家的重大发展战略。人工智能正在成为新一轮产业变革的引擎,必将深刻影响国际产业竞争格局和一个国家的国际竞争力。世界主要发达国家纷纷把发展人工智能作为提升国际竞争力、维护国家安全的重大战略,加紧积极谋划政策,围绕核心技术、顶尖人才、标准规范等强化部署,力图在新一轮国际科技竞争中掌握主导权。无论是德国的“工业4.0”、美国的“工业互联网”、日本的“超智能社会”、还是我国的“中国制造2025”等重大国家战略,人工智能都是其中的核心关键技术。2017年7月,国务院发布了《新一代人工智能发展规划》,开启了我国人工智能快速创新发展的新征程。

(六)人工智能的社会影响日益凸显。人工智能的社会影响是多元的,既有拉动经济、服务民生、造福社会的正面效应,又可能出现安全失控、法律失准、道德失范、伦理失常、隐私失密等社会问题,以及利用人工智能热点进行投机炒作从而存在泡沫风险。首先,人工智能作为新一轮科技革命和产业变革的核心力量,促进社会生产力的整体跃升,推动传统产业升级换代,驱动“无人经济”快速发展,在智能交通、智能家居、智能医疗等民生领域发展积极正面影响。与此同时,我们也要看到人工智能引发的法律、伦理等问题日益凸显,对当下的社会秩序及公共管理体制带来了前所未有的新挑战。例如,2016年欧盟委员会法律事务委员会提交一项将最先进的自动化机器人身份定位为“电子人(electronicpersons)”的动议,2017年沙特阿拉伯授予机器人“索菲亚”公民身份,这些显然冲击了传统的民事主体制度。那么,是否应该赋予人工智能系统法律主体资格?另外在人工智能新时代,个人信息和隐私保护、人工智能创作内容的知识产权、人工智能歧视和偏见、无人驾驶系统的交通法规、脑机接口和人机共生的科技伦理等问题都需要我们从法律法规、道德伦理、社会管理等多个角度提供解决方案。

由于人工智能与人类智能密切关联且应用前景广阔、专业性很强,容易造成人们的误解,也带来了不少炒作。例如,有些人错误地认为人工智能就是机器学习(深度学习),人工智能与人类智能是零和博弈,人工智能已经达到5岁小孩的水平,人工智能系统的智能水平即将全面超越人类水平,30年内机器人将统治世界,人类将成为人工智能的奴隶,等等。这些错误认识会给人工智能的发展带来不利影响。还有不少人对人工智能预期过高,以为通用智能很快就能实现,只要给机器人发指令就可以干任何事。另外,有意炒作并通过包装人工智能概念来谋取不当利益的现象时有发生。因此,我们有义务向社会大众普及人工智能知识,引导政府、企业和广大民众科学客观地认识和了解人工智能。

四、人工智能的发展趋势与展望

人工智能经过六十多年的发展突破了算法、算力和算料(数据)等“三算”方面的制约因素,拓展了互联网、物联网等广阔应用场景,开始进入蓬勃发展的黄金时期。从技术维度看,当前人工智能处于从“不能用”到“可以用”的技术拐点,但是距离“很好用”还有数据、能耗、泛化、可解释性、可靠性、安全性等诸多瓶颈,创新发展空间巨大,从专用到通用智能,从机器智能到人机智能融合,从“人工+智能”到自主智能,后深度学习的新理论体系正在酝酿;从产业和社会发展维度看,人工智能通过对经济和社会各领域渗透融合实现生产力和生产关系的变革,带动人类社会迈向新的文明,人类命运共同体将形成保障人工智能技术安全、可控、可靠发展的理性机制。总体而言,人工智能的春天刚刚开始,创新空间巨大,应用前景广阔。

(一)从专用智能到通用智能。如何实现从狭义或专用人工智能(也称弱人工智能,具备单一领域智能)向通用人工智能(也称强人工智能,具备多领域智能)的跨越式发展,既是下一代人工智能发展的必然趋势,也是国际研究与应用领域的挑战问题。2016年10月美国国家科学技术委员会发布了《国家人工智能研究与发展战略计划》,提出在美国的人工智能中长期发展策略中要着重研究通用人工智能。DeepMind创始人戴密斯·哈萨比斯(DemisHassabis)提出朝着“创造解决世界上一切问题的通用人工智能”这一目标前进。微软在2017年7月成立了通用人工智能实验室,100多位感知、学习、推理、自然语言理解等方面的科学家参与其中。

(二)从人工智能到人机混合智能。人工智能的一个重要研究方向就是借鉴脑科学和认知科学的研究成果,研究从智能产生机理和本质出发的新型智能计算模型与方法,实现具有脑神经信息处理机制和类人智能行为与智能水平的智能系统。在美国、欧盟、日本等国家和地区纷纷启动的脑计划中,类脑智能已成为核心目标之一。英国工程与自然科学研究理事会EPSRC发布并启动了类脑智能研究计划。人机混合智能旨在将人的作用或认知模型引入到人工智能系统中,提升人工智能系统的性能,使人工智能成为人类智能的自然延伸和拓展,通过人机协同更加高效地解决复杂问题。人机混合智能得到了我国新一代人工智能规划、美国脑计划、脸书(脑机语音文本界面)、特斯拉汽车创始人埃隆·马斯克(人脑芯片嵌入和脑机接口)等的高度关注。

(三)从“人工+智能”到自主智能系统。当前人工智能的研究集中在深度学习,但是深度学习的局限是需要大量人工干预:人工设计深度神经网络模型、人工设定应用场景、人工采集和标注大量训练数据(非常费时费力)、用户需要人工适配智能系统等。因此已有科研人员开始关注减少人工干预的自主智能方法,提高机器智能对环境的自主学习能力。例如阿法元从零开始,通过自我对弈强化学习实现围棋、国际象棋、日本将棋的“通用棋类AI”。在人工智能系统的自动化设计方面,2017年谷歌提出的自动化学习系统(AutoML)试图通过自动创建机器学习系统降低AI人员成本。

(四)人工智能将加速与其他学科领域交叉渗透。人工智能本身是一门综合性的前沿学科和高度交叉的复合型学科,研究范畴广泛而又异常复杂,其发展需要与计算机科学、数学、认知科学、神经科学和社会科学等学科深度融合。随着超分辨率光学成像、光遗传学调控、透明脑、体细胞克隆等技术的突破,脑与认知科学的发展开启了新时代,能够大规模、更精细解析智力的神经环路基础和机制,人工智能将进入生物启发的智能阶段,依赖于生物学、脑科学、生命科学和心理学等学科的发现,将机理变为可计算的模型,同时人工智能也会促进脑科学、认知科学、生命科学甚至化学、物理、材料等传统科学的发展。例如,2018年美国麻省理工学院启动的“智能探究计划”(MITIntelligenceQuest)就联合了五大学院进行协同攻关。

(五)人工智能产业将蓬勃发展。随着人工智能技术的进一步成熟以及政府和产业界投入的日益增长,人工智能应用的云端化将不断加速,全球人工智能产业规模在未来十年将进入高速增长期。例如,2016年9月,咨询公司埃森哲发布报告指出,人工智能技术的应用将为经济发展注入新动力,在现有基础上能够提高劳动生产率40%;美、日、英、德、法等12个发达国家(现占全球经济总量的一半)到2035年,年经济增长率平均可以翻一番。2018年麦肯锡的研究报告表明到2030年人工智能新增经济规模将达到13万亿美元。

(六)人工智能将推动人类进入普惠型智能社会。“人工智能+X”的创新模式将随着技术和产业的发展日趋成熟,对生产力和产业结构产生革命性影响,并推动人类进入普惠型智能社会。2017年国际数据公司IDC在《信息流引领人工智能新时代》白皮书中指出未来五年人工智能提升各行业运转效率,其中教育业提升82%,零售业71%,制造业64%,金融业58%。我国经济社会转型升级对人工智能有重大需求,在消费场景和行业应用的需求牵引下,需要打破人工智能的感知瓶颈、交互瓶颈和决策瓶颈,促进人工智能技术与社会各行各业的融合提升,建设若干标杆性的应用场景创新,实现低成本、高效益、广范围的普惠型智能社会。

(七)人工智能领域的国际竞争将日趋激烈。“未来谁率先掌握人工智能,谁就能称霸世界”。2018年4月,欧盟委员会计划2018-2020年在人工智能领域投资240亿美元;法国总统在2018年5月宣布《法国人工智能战略》,目的是迎接人工智能发展的新时代,使法国成为人工智能强国;2018年6月,日本《未来投资战略》重点推动物联网建设和人工智能的应用。世界军事强国已逐步形成以加速发展智能化武器装备为核心的竞争态势,例如美国特朗普政府发布的首份《国防战略》报告即提出谋求通过人工智能等技术创新保持军事优势,确保美国打赢未来战争;俄罗斯2017年提出军工拥抱“智能化”,让导弹和无人机这样的“传统”兵器威力倍增。

(八)人工智能的社会学将提上议程。水能载舟,亦能覆舟。任何高科技也都是一把双刃剑。随着人工智能的深入发展和应用的不断普及,其社会影响日益明显。人工智能应用得当、把握有度、管理规范,就能有效控制负面风险。为了确保人工智能的健康可持续发展并确保人工智能的发展成果造福于民,需要从社会学的角度系统全面地研究人工智能对人类社会的影响,深入分析人工智能对未来经济社会发展的可能影响,制定完善的人工智能法律法规,规避可能风险,确保人工智能的正面效应。2017年9月,联合国犯罪和司法研究所(UNICRI)决定在海牙成立第一个联合国人工智能和机器人中心,规范人工智能的发展。2018年4月,欧洲25个国家签署了《人工智能合作宣言》,从国家战略合作层面来推动人工智能发展,确保欧洲人工智能研发的竞争力,共同面对人工智能在社会、经济、伦理及法律等方面的机遇和挑战。

五、我国人工智能的发展态势与思考

我国当前人工智能发展的总体态势良好。中国信通院联合高德纳咨询公司(Gartner)于2018年9月发布的《2018世界人工智能产业发展蓝皮书》报告统计,我国(不含港澳台地区)人工智能企业总数位列全球第二(1040家),仅次于美国(2039家)。在人工智能总体水平和应用方面,我国也处于国际前列,发展潜力巨大,有望率先突破成为全球领跑者。但是我们也要清醒地看到,我国人工智能发展存在过热和泡沫化风险,特别在基础研究、技术体系、应用生态、创新人才、法律规范等方面仍然存在不少问题。总体而言,我国人工智能发展现状可以用“高度重视,态势喜人,差距不小,前景看好”来概括。

一是高度重视。党和国家高度重视并大力发展人工智能。党的十八大以来,习近平总书记把创新摆在国家发展全局的核心位置,高度重视人工智能发展,多次谈及人工智能的重要性,为人工智能如何赋能新时代指明方向。2016年7月习总书记明确指出,人工智能技术的发展将深刻改变人类社会生活,改变世界,应抓住机遇,在这一高技术领域抢占先机。在党的十九大报告中,习总书记强调“要推动互联网、大数据、人工智能和实体经济深度融合”。在2018年两院院士大会上,习总书记再次强调要“推进互联网、大数据、人工智能同实体经济深度融合,做大做强数字经济”。在2017年和2018年的《政府工作报告》中,李克强总理都提到了要加强新一代人工智能发展。2017年7月,国务院发布了《新一代人工智能发展规划》,将新一代人工智能放在国家战略层面进行部署,描绘了面向2030年的我国人工智能发展路线图,旨在构筑人工智能先发优势,把握新一轮科技革命战略主动,人工智能将成为今后一段时期的国家重大战略。发改委、工信部、科技部、教育部、中央网信办等国家部委和北京、上海、广东、江苏、浙江等地方政府都推出了发展人工智能的鼓励政策。

二是态势喜人。根据2017年爱思唯尔(Elsevier)文献数据库SCOPUS统计结果,我国在人工智能领域发表的论文数量已居世界第一。从2012年开始,我国在人工智能领域新增专利数量已经开始超越美国。据清华大学发布的《中国人工智能发展报告2018》统计,我国已成全球人工智能投融资规模最大国家,我国人工智能企业在人脸识别、语音识别、安防监控、智能音箱、智能家居等人工智能应用领域处于国际前列。近两年,清华大学、北京大学、中国科学院大学、浙江大学、上海交通大学、南京大学等高校纷纷成立人工智能学院。2015年开始的中国人工智能大会(CCAI)已连续成功召开四届、规模不断扩大,人工智能领域的教育、科研与学术活动层出不穷。

三是差距不小。我国人工智能在基础研究、原创成果、顶尖人才、技术生态、基础平台、标准规范等方面距离世界领先水平还存在较大差距。英国牛津大学2018年的一项研究报告指出中国的人工智能发展能力大致为美国的一半水平。目前我国在人工智能前沿理论创新方面总体上尚处于“跟跑”地位,大部分创新偏重于技术应用,存在“头重脚轻”的不均衡现象。在Top700全球AI人才中,中国虽然名列第二,但入选人数远远低于占一半数量的美国。据领英《全球AI领域人才报告》统计,截至2017年一季度全球人工智能领域专业技术人才数量超过190万,其中美国超过85万,我国仅超过5万人,排名全球第7位。2018年市场研究顾问公司CompassIntelligence对全球100多家AI计算芯片企业进行了排名,我国没有一家企业进入前十。另外,我国人工智能开源社区和技术生态布局相对滞后,技术平台建设力度有待加强,国际影响力有待提高。我国参与制定人工智能国际标准的积极性和力度不够,国内标准制定和实施也较为滞后。我国制定完善人工智能相关法律法规的进程需要加快,对可能产生的社会影响还缺少深度分析。

四是前景看好。我国发展人工智能具有市场规模、应用场景、数据资源、人力资源、智能手机普及、资金投入、国家政策支持等多方面的综合优势,人工智能发展前景看好。全球顶尖管理咨询公司埃森哲于2017年发布的《人工智能:助力中国经济增长》报告显示,到2035年人工智能有望推动中国劳动生产率提高27%。我国发布的《新一代人工智能发展规划》提出到2030年,人工智能核心产业规模超过1万亿元,带动相关产业规模超过10万亿元。在我国未来的发展征程中,“智能红利”将有望弥补人口红利的不足。

人类社会已开始迈入智能化时代,人工智能引领社会发展是大势所趋,不可逆转。经历六十余年积累后,人工智能开始进入爆发式增长的红利期。伴随着人工智能自身的创新发展和向经济社会的全面渗透,这个红利期将持续相当长的时期。现在是我国加强人工智能布局、收获人工智能红利、引领智能时代的重大历史机遇期,如何在人工智能蓬勃发展的浪潮中选择好中国路径、抢抓中国机遇、展现中国智慧需要深入思考。

(一)树立理性务实的发展理念。围棋人机大战中阿尔法狗战胜李世石后,社会大众误以为人工智能已经无所不能,一些地方政府、社会企业、风险资金因此不切实际一窝蜂发展人工智能产业,一些别有用心的机构则有意炒作并通过包装人工智能概念来谋取不当利益。这种“一拥而上、一哄而散”的跟风行为不利于人工智能的健康可持续发展。任何事物的发展不可能一直处于高位,有高潮必有低谷,这是客观规律。根据高德纳咨询公司发布的技术发展曲线,当前智能机器人、认知专家顾问、机器学习、自动驾驶等人工智能热门技术与领域正处于期望膨胀期,但是通用人工智能及人工智能的整体发展仍处于初步阶段,人工智能还有很多“不能”,实现机器在任意现实环境的自主智能和通用智能仍然需要中长期理论和技术积累,并且人工智能对工业、交通、医疗等传统领域的渗透和融合是个长期过程,很难一蹴而就。因此发展人工智能不能以短期牟利为目的,要充分考虑到人工智能技术的局限性,充分认识到人工智能重塑传统产业的长期性和艰巨性,理性分析人工智能发展需求,理性设定人工智能发展目标,理性选择人工智能发展路径,并务实推进人工智能发展举措,只有这样才能确保人工智能健康可持续发展。

(二)加强基础扎实的原创研究。人工智能前沿基础理论是人工智能技术突破、行业革新、产业化推进的基石。在此发展的临界点,要想取得最终的话语权,必须在人工智能基础理论和前沿技术方面取得重大突破。根据2017年爱思唯尔文献数据库SCOPUS统计结果,尽管我国在人工智能领域发表的论文数量已经排名世界第一,但加权引文影响力则只排名34位。为了客观评价我国在人工智能基础研究方面的整体实力,我们搜索了SCI期刊、神经信息处理系统大会(ConferenceonNeuralInformationProcessingSystems,简称NIPS)等主流人工智能学术会议关于通用智能、深度学习、类脑智能、脑智融合、人机博弈等关键词的论文统计情况,可以清楚看到在人工智能前沿方向中国与美国相比基础实力存在巨大差距:在高质量论文数量方面(按中科院划定的SCI一区论文标准统计),美国是中国的5.34倍(1325:248);在人才储备方面(SCI论文通讯作者),美国是中国的2.12倍(4804:2267)。

我国应对标国际最高水平,建设面向未来的人工智能基础科学研究中心,重点发展原创性、基础性、前瞻性、突破性的人工智能科学。应该鼓励科研人员瞄准人工智能学科前沿方向开展引领性原创科学研究,通过人工智能与脑认知、神经科学、心理学等学科的交叉融合,重点聚焦人工智能领域的重大基础性科学问题,形成具有国际影响力的人工智能原创理论体系,为构建我国自主可控的人工智能技术创新生态提供领先跨越的理论支撑。

(三)构建自主可控的创新生态。美国谷歌、IBM、微软、脸书等企业在AI芯片、服务器、操作系统、开源算法、云服务、无人驾驶等方面积极构建创新生态、抢占创新高地,已经在国际人工智能产业格局中占据先机。我国人工智能开源社区和技术创新生态布局相对滞后,技术平台建设力度有待加强,国际影响力有待提高。美国对中兴通讯发禁令一事充分说明自主可控“核高基”技术的重要性,我国应该吸取在核心电子器件、高端通用芯片及基础软件方面依赖进口的教训,避免重蹈覆辙,着力防范人工智能时代“空心化”风险,系统布局并重点发展人工智能领域的“新核高基”:“新”指新型开放创新生态,如军民融合、产学研融合等;“核”指核心关键技术与器件,如先进机器学习技术、鲁棒模式识别技术、低功耗智能计算芯片等;“高”指高端综合应用系统与平台,如机器学习软硬件平台、大型数据平台等;“基”指具有重大原创意义和技术带动性的基础理论与方法,如脑机接口、类脑智能等。

另外,我们需要重视人工智能技术标准的建设、产品性能与系统安全的测试。特别是我国在人工智能技术应用方面走在世界前列,在人工智能国际标准制定方面应当掌握话语权,并通过标准实施加速人工智能驱动经济社会转型升级的进程。

(四)建立协同高效的创新体系。我国经济社会转型升级对人工智能有重大需求,但是单一的创新主体很难实现政策、市场、技术、应用等方面的全面突破。目前我国学术界、产业界、行业部门在人工智能发展方面各自为政的倾向比较明显,数据资源开放共享不够,缺少对行业资源的有效整合。相比而言,美国已经形成了全社会、全场景、全生态协同互动的人工智能协同创新体系,军民融合和产学研结合都做得很好。我国应在体制机制方面进一步改革创新,建立“军、政、产、学、研、用”一体的人工智能协同创新体系。例如,国家进行顶层设计和战略规划,举全国优势力量设立军事智能的研发和应用平台,提供“人工智能+X”行业融合、打破行业壁垒和行政障碍的激励政策;科技龙头企业引领技术创新生态建设,突破人工智能的重大技术瓶颈;高校科研机构进行人才培养和原始创新,着力构建公共数据资源与技术平台,共同建设若干标杆性的应用创新场景,推动成熟人工智能技术在城市、医疗、金融、文化、农业、交通、能源、物流、制造、安全、服务、教育等领域的深度应用,建设低成本高效益广范围的普惠型智能社会。

(五)加快创新人才的教育培养。发展人工智能关键在人才,中高端人才短缺已经成为我国人工智能做大做强的主要瓶颈。另外,我国社会大众的人工智能科技素养也需要进一步提升,每一个人都需要去适应人工智能时代的科技浪潮。在加强人工智能领军人才培养引进的同时,要面向技术创新和产业发展多层次培养人工智能创新创业人才。《新一代人工智能发展规划》提出逐步开展全民智能教育项目,在中小学阶段设置人工智能课程。目前人工智能科普活动受到各地学校的欢迎,但是缺少通俗易懂的高质量人工智能科普教材、寓教于乐的实验设备和器材、开放共享的教学互动资源平台。国家相关部门应高度重视人工智能教育领域的基础性工作,增加投入,组织优势力量,加强高水平人工智能教育内容和资源平台建设,加快人工智能专业的教学师资培训,从教材、教具、教师等多个环节全面保障我国人工智能教育工作的开展。

(六)推动共担共享的全球治理。人工智能将重塑全球政治和经济格局,发达国家通过人工智能技术创新掌控了产业链上游资源,难以逾越的技术鸿沟和产业壁垒有可能将进一步拉大发达国家和发展中国家的生产力发展水平差距。美国、日本、德国等通过人工智能和机器人的技术突破和广泛应用弥补他们的人力成本劣势,希望制造业从新兴国家回流发达国家。目前看,我国是发展中国家阵容中唯一有望成为全球人工智能竞争中的领跑者,应采取不同于一些国家的“经济垄断主义、技术保护主义、贸易霸凌主义”路线,尽快布局构建开放共享、质优价廉、普惠全球的人工智能技术和应用平台,配合国家“一带一路”战略,向亚洲、非洲、南美等经济欠发达地区输出高水平、低成本的“中国智造”成果、提供人工智能时代的中国方案,为让人工智能时代的“智能红利”普惠人类命运共同体做出中国贡献!

(七)制定科学合理的法律法规。要想实实在在收获人工智能带来的红利,首先应保证其安全、可控、可靠发展。美国和欧洲等发达国家和地区十分重视人工智能领域的法律法规问题。美国白宫多次组织这方面的研讨会、咨询会;特斯拉等产业巨头牵头成立OpenAI等机构,旨在以有利于整个人类的方式促进和发展友好的人工智能;科研人员自发签署23条“阿西洛马人工智能原则”,意图在规范人工智能科研及应用等方面抢占先机。我国在人工智能领域的法律法规制定及风险管控方面相对滞后,这种滞后局面与我国现阶段人工智能发展的整体形势不相适应,并可能成为我国人工智能下一步创新发展的一大掣肘。因此,有必要大力加强人工智能领域的立法研究,制定相应的法律法规,建立健全公开透明的人工智能监管体系,构建人工智能创新发展的良好法规环境。

(八)加强和鼓励人工智能社会学研究。人工智能的社会影响将是深远的、全方位的。我们当未雨绸缪,从国家安全、社会治理、就业结构、伦理道德、隐私保护等多个维度系统深入研究人工智能可能的影响,制定合理可行的应对措施,确保人工智能的正面效应。应大力加强人工智能领域的科普工作,打造科技与伦理的高效对话机制和沟通平台,消除社会大众对人工智能的误解与恐慌,为人工智能的发展营造理性务实、积极健康的社会氛围。

六、结束语

人工智能经过60多年的发展,进入了创新突破的战略机遇期和产业应用的红利收获期,必将对生产力和产业结构以及国际格局产生革命性影响,并推动人类进入普惠型智能社会。但是,我们需要清醒看到通用人工智能及人工智能的整体发展仍处于初级阶段,人工智能不是万能,人工智能还有很多“不能”。我们应当采取理性务实的发展路径,扎实推进基础研究、技术生态、人才培养、法律规范等方面的工作,在开放中创新,在创新中发展,全速跑赢智能时代,着力建设人工智能科技强国!

(主讲人系中国科学院院士)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇