博舍

人工智能 人工智能的名称来源是什么

人工智能

人工智能(英文名:ArtificialIntelligence,英文缩写:AI)。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。[1]

人工智能亦称智械、机器智能,指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通计算机程序来呈现人类智能的技术。通过医学、神经科学、机器人学及统计学等的进步,有些预测则认为人类的无数职业也逐渐被人工智能取代。

托马斯·萨金特:人工智能的来源

托马斯·萨金特:人工智能的来源

2022-11-0308:55:30

日前,2011年诺贝尔经济学奖得主、北大汇丰萨金特数量经济与金融研究所荣誉主任托马斯·萨金特(ThomasJ.Sargent)教授主编的《萨金特数量经济与金融研究所时讯》(第四期)正式上线。其中,萨金特教授在其为时讯撰写的独家首发文章《人工智能的来源》中,分享了对人工智能与机器学习的理解与思考,以下为全文内容。

托马斯·萨金特(ThomasJ.Sargent)教授

作为一个并不全面的见证者,我在本文中描述了人工智能与机器学习是如何被发明的,并列举了该领域的重要人物以及他们的思想。

1.简介

这篇文章与人类、人工智能以及学习相关。我所谓的人工是指“非人类”。在描述人工智能和机器学习之前,为了表达我对自然和人工智能的理解,我将首先通过描述有智识的人类通过结合先天与后天技能来完成的两类重要活动,即识别模式和做出选择。智能的其他方面是对时间和空间的认识,以及对其他人的同情和共鸣。一代又一代的父母把从上一辈传承的技能和观点,以及自己学到的新思想传给孩子。在描述了伽利略·伽利雷(GalileoGalilei)和查尔斯·达尔文(CharlesDarwin)如何将他们的先天才能与教科书上的知识相结合,继而创造出科学上的突破之后,我将讲述现代研究人员如何设计出能够识别模式和做出选择的计算机程序¹。

我在这篇文章里提及了许多“树”,即各种概念和技术,这对普通读者来说可能是新事物,但我希望我对机器学习这片“森林”的描述是清楚的。若有读者好奇地想了解更多复杂的“树”,我建议他们使用专业在线搜索引擎或查看本文结尾处参考文献中的内容。

2.人类智能

我从认知心理学家史蒂芬·平克(StevenPinker)的《白板》(TheBlankSlate)第13章的内容开始讲。平克这本书(2003)的第13章题为《走出我们的深渊》。如果你是高中生或大一新生,或是喜欢思考教育的目的,推荐你阅读这一章。基于对人类认知障碍的理解,史蒂芬·平克对在高中和大学应该学习什么内容以及为什么学习提供了建议。他在开章描述了进化使我们自然擅长的一些技能,以及我们必须借助学习才能获取的其他技能。

在人类10万年的历史和史前史中,进化未赋予人类的那些技能其实并不重要。但是,现代生活使一些进化未赋予我们的东西变得前所未有地重要。平克总结出了四个此类学科。

 

1.物理学关于重量、时间、空间、运动、能量、热和光的理论。

2.生物学关于生命、出生和死亡的理论。

3.统计学描述不确定性以及识别和解释相对频率的方法。

4.经济学关于工作、生产、分配、价格和数量的描述。

 

在现代生活中,只有了解了这四个领域才能做出明智的个人和公共决策。但我们的“直觉”经常让我们在这些领域中犯错。出于行文目的,暂且将“直觉”定义为我们进化出来的能够快速理解各种情况的思维方式。它的同义词或许是“常识”,即我们本能地就能够理解的东西。史蒂芬·平克描述了我们自然、直觉的理论在这四个领域中是如何将我们引入歧途的,只有通过受教育才能改进。

平克列举了一些四个领域相关的绝佳例子,以说明我们的常识和直觉并不能帮助我们理解现代物理学。根据理查德·费曼(RichardFeynman)和其他杰出的物理学家的说法,“常识”难以帮助我们理解广义相对论和量子力学。平克讲述了我们如何进化出统计计算的能力,这种能力在过去靠狩猎和采集为生时很有帮助,它让我们能够计算一些事件出现的几率。但是,相比从前,今日的重要风险事件发生的几率非常低。而我们的自然禀赋不擅长应对小概率事件。因为在公共决策中无法正确平衡低概率风险事件的成本和收益,我们付出过昂贵的代价。平克描述了进化如何给了我们的祖先一套关于生产和交换的经济理论,然而这些理论并没能让我们理解劳动分工、分配、市场、中间商、中介、稳定市场的投机行为和利润。事实上,我们天生就误解了这些东西,在反复发生的针对中间商和贸易商、投机者和流动性提供者的征用和大屠杀中,经常出现悲惨的后果,而受害者往往是少数民族成员。

这些认知缺陷为平克在该书第13章呼吁重新设计课程的建议提供了理论基础。平克将教育描述为一种补偿我们先天的认知限制、利用我们先天学习能力的技术。他呼吁对学术课程进行大刀阔斧的改革,传授那些能帮助我们在现代社会享受生活和做出正确决定的技能:生物学、统计学和经济学。他也承认,多教授这些科目意味着少教授其他科目。

2.1人工智能和我们天生的认知极限

通过阅读第13章,我们可以了解人类是如何寄希望于“人工智能”来补充并超越与生俱来的自然人类智能。

这里潜藏着一个悖论,即创造人工智能和机器学习的主要技术工具来自物理学、生物学、统计学和经济学,而这些领域正是我们先天认知有限的。换句话说,我们试图在自己天生不擅长的领域创造人工智能和机器学习。机器学习和人工智能的早期先驱和实践者通过透彻地学习以及富有想象力地使用现有的最优化分析技术,来弥补他们在自然认知方面的不足。

 

3.两位机器学习的先驱

3.1伽利略

GalileoGalilei

意大利物理学家、数学家、天文学家及哲学家

因为提倡地球围绕太阳旋转,17世纪初伟大的意大利数学家、科学家、物理学家、天文学家伽利略(1564-1642)最终被宗教裁判所逮捕。在被逮捕的许多年前,伽利略从事了一项研究,我认为这项研究演绎了“机器学习”方法的本质。伽利略(1)设计并进行实验来收集数据;(2)反复观察数据,试图发现模式;(3)通过拟合一个函数来减少数据的维度;(4)将该函数解释为自然界的一般规律。伽利略的策略为机器学习和人工智能的意义提供了一个绝佳例子,也许是第一个例子。

自然地,我说的是伽利略的“斜面实验”以及他对数据进行的处理和降维。伽利略试图发现控制落体动力的自然规律。也许你在想“这很容易,只要应用艾萨克·牛顿(IsaacNewton)的万有引力定律就行了”。不要太着急下定论:牛顿这时候还没有出生呢。当时被广为接受的主流理论是亚里士多德(Aristotle)在2000年前宣称的:较重的物体比较轻的物体下落得快。

伽利略想用实证方法来研究亚里士多德的理论。为什么不直接扔下不同重量的球,以便测量它们下落的速度呢?伽利略无法这样做,因为不论多重的球落下的速度都比当时的钟能准确测量的速度快得多。因此,伽利略决定建造不同角度的光滑斜面,并调整角度,使落下的球的速度足够慢,这样他就可以用他拥有的时钟测量它们沿平面的移动速度。对于一个长度l和高度h的平面,比率h/l决定了平面的角度。伽利略扔下一个球,仔细测量了球沿平面移动的距离d,将之计作球被扔下后经过的时间t的函数。他做了一个有两栏的表格,其中记录了ti和di(i=1,...),n为他在每个实验中的n个测量时间。对于一个给定的实验,他将di和ti绘制在一起。他对各种不同重量的球进行了实验,设置了不同的l和h(即斜面的不同角度)。然后他凝视自己记录的图表,发现一个惊人的现象:在所有的图表中,行进的距离与经过的时间的平方成正比,与球的重量和平面的角度无关。他推断出一个公式:

请注意,出人意料的是,球的重量不在右边的函数中。因此,球的下落速度显然是与它的重量是无关的。因此,通过对他的实验数据进行函数拟合,伽利略同时完成了数据降维和概括。他发现了一个自然法则,这个法则成为50年后艾萨克·牛顿思想的一个重要启发。

伽利略的斜面实验具有现代机器学习和人工智能的所有要素。他一开始不知道世界是如何运作的,也没有一个好的理论。他所做的完全是无理论的。所以他进行了一系列的实验,收集了数据表,每个实验一个表,以球的重量以及斜面的长度l和高度h为索引。他从许多数据表中推导(即“拟合”)出一个函数,结果发现这个函数只由一个新数字决定,即“参数”g。²

我并不完全理解是什么启发了伽利略去设计他的实验,收集那些测量数据,并通过拟合函数来减少测量数据的维度。不过我确实知道伽利略拥有的工具,以及本可以帮助他、但他却没有的工具。尤其是,他不知道微分和积分计算——几十年后,这些工具才被费马(Fermat)、牛顿和莱布尼茨(Leibniz)发明出来。但伽利略确实非常了解几何和代数,也十分熟悉欧几里得(Euclid)和阿基米德(Archimedes)。如果没有这些工具,纯粹的灵感和对亚里士多德理论的怀疑态度是远远不够的。³

3.2达尔文

CharlesRobertDarwin

英国的博物学家、生物学家、进化论的奠基人

下一个故事有关经济理论在达尔文(1809-1882)的“自然选择物种进化”学说中所起的作用。哈耶克(Hayek)(2011年,附录B)引用了西蒙·N·巴顿(SimonN.Patton)于1899年发表的一段声明:“......正如亚当·斯密(AdamSmith)是最后一个道德家和第一个经济学家一样,达尔文是最后一个经济学家和第一位生物学家。”

达尔文使用原始经验主义和降维来构建他的理论。他不知道基因是什么,也不知道DNA是什么。他“知道”的是观察他培育的鸽子和自然界的动植物所收集来的一个庞大的数据集。仅通过研究鸽子的数据,他就推断出了三个基本原则中的两个。

1.自然变异

2.新变化的统计继承

作为一名鸽子育种者,达尔文利用这两个原则来选择理想的性状,然后依靠统计遗传来培育新的鸽子品种。幼鸽从父母那里获得了一些特征。“查尔斯·达尔文的选择”,而不是自然选择指导其育种。有很长一段时间,达尔文并不知道在自然中选择的原理是什么。然后,他阅读了托马斯·马尔萨斯(ThomasMalthus)的《人口原理对社会未来进步的影响》。马尔萨斯描写了一场斗争,这种斗争是因人口繁殖速度超过食物产量增速而引发的。在此前提下,食物的可得性制约着人口数量,个体需要为生存斗争。马尔萨斯这方面的论证为达尔文提供了他缺失的那块拼图:从生存斗争中产生的自然选择。出生的婴儿数量超过了食物所能喂养的数量。达尔文(1859)的引言部分将其第三个基本原则归功于马尔萨斯。

3.竞争选择——为了生存的斗争

一些杰出的博弈论者和经济学家现在经常使用进化论作为经济和社会动态的来源。也许这些人认为他们从达尔文那里得到了启发。但实际上达尔文理论的一个重要部分是从经济学家那里得到的。正如哈耶克(2011年版,附录A)指出的,达尔文1838年对亚当·斯密的研究为他提供了生物进化自然选择理论的一个关键组成部分。哈耶克(2011)还指出,文化进化论早在1800年之前就已被经济学家和社会学家广泛接受。

达尔文的研究策略是一个将庞大的数据集降维,以提取基于三个基本原则的低维模型的很好的例子。数据收集,运用三个基本原则进行数据降维,最后进行理论概括:多么非凡的研究策略!

像伽利略一样,达尔文也不是从零开始。他在生物学、地质学和经济学方面都很博学。对这些领域既有知识的深刻理解是他能够突破已知、进行创新的基础。他是一个“宏观”的人,因为他的理论的前两个支柱,即新特征的变异和继承,并没有“微观基础”。对于在他的三个支柱理论下,需要多长时间,生物的进化才能够与古生物学与生物学已知的证据相符合,他也说得很模糊。⁴

 

4人工智能

上文都在谈论人类的智慧和灵感,现在让我们转向人工智能或机器学习。它是什么呢?

我所说的人工智能是指模仿人类完成一些“智能”事情的计算机程序。“机器学习”主要是通过使用微积分和统计来完成模式识别。参照伽利略运用斜面实验测量下落物体速度的方法,设计者开发出能够进行机器学习和人工智能的计算机芯片和程序。因此,将函数视为“如果-那么”语句的集合。将“如果”部分想象为函数中的横坐标x,并将“那么”部分想象为y纵坐标。使用计算机识别模式涉及:(1)将数据划分为x和y部分,(2)猜测f的函数形式,然后(3)使用统计的方法从不同的x和y数据中推断f。“统计学”这门学科提供了用于推断或“拟合”函数f的工具。

举一个简单的例子。假设在地球上的给定位置,您在一年中的每一天都记录了从日出到日落的“白天”长度,在x轴上按照1到365记录天数,在y轴上记录从日出到日落的时长,制作一个以x和y为两列的表格。该表有365乘以2等于730个数字。现在绘制并凝视它们。猜测函数y=cos(α+βx)也许能很好地总结这些数据。使用微积分求使函数拟合得很好的两个参数α,β的值,它们最小化了

你会发现这个函数拟合得很好(尽管不完美)。通过总结数据(也可称为进行“数据压缩”或“数据缩减”),我们得以找出了一个经验法则(一个函数)来“概括”我们的发现,并可以使用这个法则来预测365天样本以外的“白天”时长。

 

5人工智能工具

机器学习和人工智能的核心方法来自以下学科:⁵

 

1.物理学

2.生物学

3.统计学

4.经济学

 

接下来我们将逐一分析这四个学科。

5.1物理学

欧拉(Euler)、拉格朗日(Lagrange)和汉密尔顿(Hamilton)在18世纪和19世纪的研究成果扩充和完善了运用微积分最优化时变函数的积分方法。这为21世纪哈密顿·蒙·卡特罗(HamiltonianMonteCarlo)的模拟技术奠定了基础,该技术继而推动了复杂的贝叶斯估计和机器学习的技术发展。克劳修斯(Clausius)、玻尔兹曼(Boltzmann)和吉布斯(Gibbs)在19世纪创造了用统计学来描述热力学的概念。他们根据熵定义了热力学第二定律,熵是似然比的期望值,即一个概率分布与另一个概率分布的比率。其中一个概率分布是一个平坦的均匀分布,它在统计上代表完全无序,另一个分布则在精确的、统计学意义上代表“有序”。在20世纪末和21世纪初,熵为许多机器学习算法提供了一种测量拟合模型的概率分布与数据经验分布之间差异的方法。保罗·萨缪尔森(PaulSamuelson)(1947)和他的同事们将这些技术和其他技术从数学物理学引入经济学,这将为人工智能和机器学习更多工具的发展奠定基础。

5.2数学生物学

生物学从时间和空间上研究物种的繁殖和变异模式。模式可以从“宏观”和“微观”层面上检测,这取决于研究的单位——个人、动物、DNA、RNA,或组成它们那些更小的分子。生物学的数学理论(例如,费尔德曼(Feldman,2014)和费尔森斯坦(Felsenstein,1989)通过以随机差分或微分方程的形式构建动态系统来将这些模式构成数学体系。在微观层面,主要涉及将DNA编码为二进制字符串,以便分析师在该字符串上通过切割和重组进行突变和有性生殖的数学运算。例如,参见霍兰德(Holland,1987)。

5.3统计学

现代数理统计认为“概率”有两种可能的含义:⁶

•频率论者认为,概率是在观察一个非常大的独立且同分布的随机变量样本后可以预期的相对频率。

•贝叶斯解释,概率是关于未知隐藏“状态”或“参数”的不确定性的主观表达。

现代统计学运用一系列工具来:(1)制定一个函数集,这些函数的具体形式取决于一系列参数,有时参数还取决于更高层的超参数;(2)从样本中推断或“估算”这些参数;(3)以一个理性人的角度,描述这些推断的不确定性;(4)使用这些拟合函数的概率版本进行“样本外”预测。这些机器学习的基本技术依赖于对微积分的应用,正如我们之前提过,伽利略当时并没有这些工具。

5.4经济学

经济学是研究人类群体如何有目的地利用和分配稀缺资源的学科。现代经济理论是自洽环境中的多人决策理论。在一致的经济模型中的抽象智能人是“理性的”,因为他们处理有限优化问题皆基于他们对自身所处环境的共同、正确的理解。⁷这种多人决策理论的两个主要类别是⁸

•博弈论

•一般均衡理论

这些理论中的主要因素和内容包括

•约束

•不确定性

•去中心化和并行优化

•交易网络的账本

•价格

•竞争

在这些模型中,一个个体的决策规则构成了其他个体选择问题的约束集的一部分。这种约束通过模型的“均衡条件”产生。个体约束优化问题的解中,可以导出个人价值,其中包含用以分配资源的有用信息。

这些经济模型描述了“并行处理”和去中心化的决策过程。一个被称为“均衡”的安排有助于调和不同个体之间的自私决策以及物理资源的限制。严格的均衡概念在这两个主流框架中占据主导地位。定义均衡是一件事,计算均衡则是另一回事。因此,著名的经济理论家们多年来一直在与维度的诅咒斗争、寻求计算竞争均衡分配和价格体系的可靠方法。对这一事业做出了里程碑意义的贡献的经济理论家有艾罗与赫维克兹(ArrowandHurwicz,1958)、艾罗(Arrowetal.,1959)、艾罗(Arrow,1971)、二阶堂与宇泽(NikaidoandUzawa,1960)以及斯卡夫(Scarf,1967)、斯卡夫(Scarfetal.,2008)。这些算法运用了计算方案,追踪个人和社会价值量,以及人们想要的商品和活动的数量与社会安排之间的差距。

计算均衡的研究工作最终发现,均衡的计算与有限理性个体向均衡的收敛之间具有密切联系。布瑞与克雷普斯(BrayandKreps,1987)以及马赛特与萨金特(MarcetandSargent,1989)提出了“在均衡中学习”和“学习均衡”之间的重要区别。马赛特与萨金特(MarcetandSargent,1989)和萨金特(Sargentetal.,1993)通过使用随机近似的数学方法(例如,见格拉迪夫(Gladyshev,1965))来研究向理性预期均衡的收敛。据我所知,关于随机近似的最初工作始于霍特林(Hotelling,1941)、傅利曼与萨维奇(FriedmanandSavage,1947)。他们试图构建一种统计抽样方法,来精确地解出一个未知函数在给定点的最大值。⁹

舒比克(Shubik,2004)和巴克(Baketal.,1999)的相关工作构建了一些博弈,他们利用这些博弈来思考价格制定者对均衡过程的促进作用。(在一般均衡模型中,只有价格接受者,没有价格制定者)。舒比克的工作运用了他对一个课题的专业知识,这个课题存在于一般均衡理论和博弈论的夹缝中,对机器学习和人工智能有重要意义,它就是:货币理论。

本着舒比克(Shubik,2004)的精神,思考货币理论的一个好方法是,注意到它的目的是解释均衡价格向量是如何被实际生活在一般均衡模型中的个体设定的。艾罗和德布鲁(Debreu)的经典一般均衡模型描述了均衡价格向量的特性,但对谁来设定这个价格向量以及如何设定却保持沉默。相反,一个模型之外的“神灵”神秘地宣布了一个价格向量,同时出清了所有的市场。一个均衡价格向量保证了每个个体的预算约束得到满足。在一般均衡模型中,贸易是多边的,预算约束在一个中心化的账户中得到协调。相反,货币理论是关于一个分散的系统,该系统中的人们只是偶尔在一系列双边会面中见面,并通过使用“交换媒介”交换商品和服务。交换媒介可以是耐用金属(金或银)、代币(便士、纸质“美元”或“英镑”)、流通的债务凭证,或者银行、清算所或中央银行的账目条目。奥斯特罗伊与斯塔(OstroyandStarr,1974)、奥斯特罗伊与斯塔(OstroyandStarr,1990),以及最近的汤森(Townsend,2020)总结了该流派的研究。加密货币理论是这些研究的直系后代。

我再介绍一下博弈研究对机器学习的贡献。几十年来,应用经济学家已经构建了计算博弈均衡的算法,支撑这些计算的关键工具包括逆向归纳法(动态规划)和树状搜索。由于要研究的可能状态的维度呈指数增长,减少要研究状态的数量对于在近似均衡方面取得进展至关重要。在这方面,minimax算法和α-β剪枝搜索算法是主要的方法,可参考克努斯与摩尔(KnuthandMoore,1975)的著作和https://www.youtube.com/watch?v=STjW3eH0Cik,可以了解α-β剪枝搜索的描述,并看到相应的计算系统和“适者生存”的想法。一条相关的研究路线研究了一群天真地基于对手过去的行动进行优化的玩家是否会收敛到纳什均衡。可参见蒙德勒与沙普利(MondererandShapley,1996)、霍夫鲍尔与桑德霍尔姆(HofbauerandSandholm,2002)、福斯特与杨(FosterandYoung,1998)、弗得伯格(Fudenbergetal.,1998)。当收敛成立时,这种“虚构游戏”算法提供了一种计算均衡的方法,可参见兰伯特三世(LambertIiietal.,2005)。

5.5约翰·霍兰德(JohnHolland)在约1985年提出的人工智能愿景

 

JohnHenryHolland

美国科学家、复杂理论和非线性科学的先驱、遗传算法之父

著名的计算机科学家约翰·霍兰德¹⁰是一位先驱者。他结合了我们提到的所有技术领域的思想,为生活在给定环境中的决策者构建了计算机模型。在这种环境中,决策者别无选择,只能按照艾罗(Arrow,1971)的思路,“在实践中学习”。霍兰德(Holland,1987)介绍了他的这一方法,马里蒙(Marimonetal.,1990)描述了在多人经济环境中的具体应用。霍兰德方法的一个重要部分是全局搜索算法,他称之为“遗传算法”。它通过用字符串表示函数的参数来搜索“崎岖不平的景观”,这些字符串可以被随机匹配成一对字符串,并进行切割和重新组合。这是霍兰德表示“性繁殖”的机械方式。这样的“遗传算法”包含了他所说的“分类器”系统的一部分。霍兰德的分类器系统包括:(1)一连串的“如果-那么”语句,其中一些必须相互竞争,以获得在线(即实时的)决策权。(2)一种将“如果-那么”语句编码为二进制字符串的方法,该字符串可以进行随机突变、切割和重组;(3)一个为单个“如果-那么”语句分配奖励和成本的计算系统;(4)破坏和创建新的“如果-那么”语句的程序,包括基于DNA切割和重组的随机突变和有性繁殖;以及(5)一种筛选出适合决策规则的竞争性斗争。霍兰德分类器系统已经被证明能够学会在动态环境中保持耐心,就像拉蒙·马里蒙(RamonMarimon)总结的那样,在由霍兰德的人工智能个体组成的世界中,“耐心需要经验”。霍兰德分类器成功地计算出了一个动态经济模型的“稳定”纳什均衡,该模型的作者们事先并没有意识到这个均衡的存在,尽管事后,他们能够验证霍兰德分类器交给他们的“猜测”。可参见马里蒙(Marimonetal.,1990)的介绍。

5.6当今的人工智能

DeepMind的计算机程序AlphaGo实现了一项了不起的成就,它成功地掌握了围棋游戏,并打败了人类围棋冠军选手。可参见王(Wangetal.,2016)。AlphaGo的创造者所采用的方法让我想起了美食的烹饪过程——在一把原料中加入一丁点另一种原料,品尝一下,再加入其他原料……在烹饪AlphaGo的成分中,包含了从动态规划、汤普森采样(见汤普森(Thompson,1933))和随机逼近(见霍特林(Hotelling,1941)、傅利曼与萨维奇(FriedmanandSavage(1947))、α-β树搜索(见克努斯与摩尔(KnuthandMoore(1975))、Q-学习(见沃特金斯和达扬(WatkinsandDayan(1992));蒙特卡洛树搜索(见布朗(Browneetal.(2012))收集到的灵感。参数调整的经验法则选择是很重要的,它可以在“探索”和“利用”之间进行权衡(弗得伯格与克雷普斯(FudenbergandKreps,1993)、(FudenbergandKreps(1995)中也是如此论述的)。

机器学习的其他最新进展也引入了大量经济学和统计学的方法。计算最优运输问题(例如,佩雷(Peyr´eetal.(2019))使用丹齐格(Dantzig)、康托罗维奇(Kantorovich)和柯普曼斯(Koopmans)的线性程序来衡量理论概率和经验测量之间的差异。然后,它使用该衡量方法来构建一种高效的计算方式,以匹配数据和理论。经济学家霍特林(Hotelling,1930)用黎曼几何来表示统计模型的参数化系列。这个想法开启了计算信息几何学的先河,阿玛里(Amari,2016)将这种方法系统化了。

6.创造力的来源:模仿和创新

我描述了伽利略和达尔文是如何通过对前人研究结果和方法的掌握,并将其与前所未有的洞察力相结合,从而发现新的自然规律的。对先例的尊重,以及他们冒险超越的能力,是这两位天才的成果的突出特点。后来许多天才也采用了同样的方法,如电磁学的发现,以及富兰克林(Franklin)、戴维(Davy)、法拉第(Faraday)、麦克斯韦(Maxwell)、迈克尔逊(Michaelson)、莫利(Morley)、爱因斯坦(Einstein)的一系列发现。他们每个人都不是从“白板”(凑巧的是,这恰好是上述平克著作的标题)开始,而是从他们对前人的深刻理解和尊重开始的。每个人都看到了他们的前辈没有看到的东西,往往是因为他们采用了改进的观察或推理方法。通过运用法拉第不知道的数学,麦克斯韦组织了一个令人惊叹的统一和概括,将电磁动力学的法则减少到12个方程,而海维斯德又很快将它减少到四个方程。这四个方程为爱因斯坦的狭义相对论创造了条件。¹¹

看似与电磁学毫不相关的纯理论数学,却与后来电磁学的发现恰好吻合。为了将几何学转换为代数并写成函数,笛卡尔(Descartes)发明了一个坐标系统。50年后,牛顿和莱布尼茨利用笛卡尔坐标系发明了微分和积分。十九世纪上半叶,高斯(Gauss)和他的学生黎曼(Riemann)完善了基于平行线相交的曲面几何。里奇(Ricci)在此基础上增加了一个明确的曲率概念。

爱因斯坦将这两个独立的、看似“毫不相关”的研究工作结合起来,一个是实际的物理现象,另一个是纯粹的抽象数学。爱因斯坦在努力扩展其狭义相对论时,学会了如何使用黎曼几何和里奇曲率,构建了一个自洽的广义相对论。¹²

科学进步展示了“模仿”和“创新”两者之间的互动,这种互动在现代经济增长理论中也有所体现(例如,见班哈波柏(Benhabibetal.,2014)和班哈波柏(Benhabibetal.,2020))。在“模仿”阶段,电磁学、相对论和数学领域的先驱者主要是复制前辈和老师的技术;在“创新”阶段则是在某种程度上超越前辈和老师,因为他们比老师学得更多、理解得更深。

7.结论性评述

通过对物理学、生物学、统计学和经济学中的观点的概述,我希望证明一个主张:即平克Pinker(2003)认为我们在认知上有先天局限的学科,正是被用来创造人工智能和机器学习的学科。这正是在学期间和离开学校以后继续学习这些学科的又一个理由。在我看来,它们自身的美则构成了另一个理由。

脚注1:哈耶克(Hayek,2011,附录A)讨论了自然和人工的其他定义。

脚注2:时至今日,观察科学家如何应用机器学习和人工智能,你会看到这些聪明人搜集了大量数据、然后以之拟合函数。DeSilvaetal.(2020)与BruntonandKutz(2022)是其中两个漂亮的范例。

脚注3:为了找到埋藏在第谷·布拉赫 (TychoBrahe)(1546-1601)的已知行星位置时间戳测量表中的三个行星运动定律,约翰内斯·开普勒(JohannesKepler) (1571-1630)使用了类似于伽利略的方法。李(Li)等人追随开普勒的脚步,使用机器学习技术从布拉赫(TychoBrahe)的数据中提取开普勒定律之一。如需了解开普勒和伽利略的科学方法的精彩描述参见温伯格(Weinberg,2015)。

脚注4:当时一些顶尖科学家并没有马上接受达尔文的理论。例如,开尔文(Kelvin)勋爵声称当时盛行的地球估算年龄还远远无法论证达尔文的理论是否成立。

脚注5: 因此,现代计算和人工智能的伟大发明者约翰·冯·诺依曼(JohnvonNeumann)对这四个领域进行了研究并做出了重大贡献并非巧合。参见Bhattacharya(2022)了解更多有关冯·诺依曼的工作和生活的叙述。

脚注6: 这个网站借助Python代码探索了这两种可能的有关概率意义,参见https://python.quantecon.org/prob_meaning.html。

脚注7:当经济学家谈到“理性预期”时,他们指的是假设“对环境的普遍正确理解”。 “理性预期”一词修饰的是“模型”,而不是“人”。

脚注8:参见克雷普斯(Kreps,1997)进一步了解这两类模型的共同特征和缺点,以及一些精彩的观点和关于新方向的猜想,在我看来,这些新方向似乎预示了人工智能随后会进入经济学。

脚注9:霍特灵、弗里德曼和萨维奇的工作最后引出了“贝叶斯优化”这一机器学习技术。可参见斯诺克(Snoeketal.,2012)。

脚注10: 请参考https://en.wikipedia.org/wiki/John_Henry_Holland,https://www.nytimes.com/2015/08/20/science/john-henry-holland-computerized-evolution-dies-at-86.html.

脚注11:爱因斯坦的办公室墙上挂有麦克斯韦的照片。

脚注12:对这些事件的记录详见法梅洛(Farmelo,2019)著作的第三章。

点击此处查看本文参考文献及更多相关内容

上一页下一篇:北大首届金融硕士(金融科技方向)毕业生就业率100%下一页相关阅读托马斯·萨金特:人工智能的来源

2022.11.03

海闻:二十大进一步明确了扩大内需对未来经济增长的重要性

2022.10.24

海闻:面对国际大变局,中国应坚持“更大、更宽、更深”的高水平开放

2022.10.19

欧阳良宜:私募股权的是与非

2022.08.23

人工智能的三次浪潮与三种模式

■史爱武

谈到人工智能,人工智能的定义到底是什么?

达特茅斯会议上对人工智能的定义是:使一部机器的反应方式就像是一个人在行动时所依据的智能。

百度百科上对人工智能的定义是:它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

尽管人工智能现在还没有非常严格准确或者所有人都接受的定义,但是有一些约定俗成的说法。通常人工智能是指机器智能,让机器达到人智能所实现的一些功能。人工智能既然是机器智能,就不是机械智能,那么这个机器是指什么呢?是指计算机,用计算机仿真出来的人的智能行为就可以叫作人工智能。

2017年7月,国务院印发了《新一代人工智能发展规划》。2017年12月,人工智能入选“2017年度中国媒体十大流行语”。这一国家级战略和社会流行趋势标志着,人工智能发展进入了新阶段,我国要抢抓人工智能发展的重大战略机遇,构筑人工智能发展的先发优势,加快建设创新型国家和世界科技强国。

人工智能的三次浪潮

自1956年开始,人工智能经历了三起三落,出现了几次浪潮,现在人工智能已经是处于第三次浪潮了。

第一次浪潮(1956-1976年,20年),最核心的是逻辑主义

逻辑主义主要是用机器证明的办法去证明和推理一些知识,比如用机器证明一个数学定理。要想证明这些问题,需要把原来的条件和定义从形式化变成逻辑表达,然后用逻辑的方法去证明最后的结论是对的还是错的,也叫做逻辑证明。

早期的计算机人工智能实际上都是沿着这条路在走。当时很多专家系统,比如医学专家系统,用语言文字输入一些症状,在机器里面变换成逻辑表达,用符号演算的办法推理出大概得了什么病。所以当时的主要研究都集中在逻辑抽象、逻辑运算和逻辑表达等方面。

在第一次浪潮中,数学定理证明实际上是实现效果最好的,当时有很多数学家用定理思路证明了数学定理。为了更好地完成定理证明工作,当时出了很多和逻辑证明相关的逻辑程序语言,比如很有名的Prolog。

虽然当时的成果已经能够解开拼图或实现简单的游戏,却几乎无法解决任何实用的问题。

第二次浪潮(1976—2006年,30年),联结主义盛行

在第一次浪潮期间,逻辑主义和以人工神经网络为代表的联结主义相比,逻辑主义是完全占上风的,联结主义那时候不太吃香。然而逻辑主义最后无法解决实用的问题,达不到人们对它的期望,引起了大家的反思,这时候人工神经网络(也就是联结主义)就慢慢占了上风。

在70年代末,整个神经元联结网络、模型都有突飞猛进的进步,最重要的是BP前馈神经网络。1986年BP前馈神经网络刚出来的时候解决了不少问题,后来大家往更大的领域应用,实现了比较大的成果。在很多模式识别的领域、手写文字的识别、字符识别、简单的人脸识别也开始用起来,这个领域一下子就热起来,一时之间,人们感觉人工智能大有可为。随后十几年人们发现神经网络可以解决一些单一问题,解决复杂问题却有些力不从心。训练学习的时候,数据量太大,有很多结果到一定程度就不再往上升了。

这时期所进行的研究,是以灌输“专家知识”作为规则,来协助解决特定问题的“专家系统”为主。虽然有一些实际的商业应用案例,应用范畴却很有限,第二次热潮也就慢慢趋于消退。

第三次浪潮(2006—现在),基于互联网大数据的深度学习的突破

如果按照技术分类来讲,第二次和第三次浪潮都是神经网络技术的发展,不同的是,第三次浪潮是多层神经网络的成功,也就是深度学习取得突破。这里既有硬件的进步,也有卷积神经网络模型与参数训练技巧的进步。

若观察脑的内部,会发现有大量称为“神经元”的神经细胞彼此相连。一个神经元从其他神经元那里接收的电气信号量达某一定值以上,就会兴奋(神经冲动);在某一定值以下,就不会兴奋。兴奋起来的神经元,会将电气信号传送给下一个相连的神经元。下一个神经元同样会因此兴奋或不兴奋。简单来说,彼此相连的神经元,会形成联合传递行为。我们透过将这种相连的结构来数学模型化,便形成了人工神经网络。

经模型化的人工神经网络,是由“输入层”“隐藏层”及“输出层”等三层构成。深度学习往往意味着有多个隐藏层,也就是多层神经网络。另外,学习数据则是由输入数据以及相对应的正确解答来组成。

为了让输出层的值跟各个输入数据所对应的正解数据相等,会对各个神经元的输入计算出适当的“权重”值。通过神经网络,深度学习便成为了“只要将数据输入神经网络,它就能自行抽出特征”的人工智能。

伴随着高性能计算机、云计算、大数据、传感器的普及,以及计算成本的下降,“深度学习”随之兴起。它通过模仿人脑的“神经网络”来学习大量数据的方法,使它可以像人类一样辨识声音及影像,或是针对问题做出合适的判断。在第三次浪潮中,人工智能技术及应用有了很大的提高,深度学习算法的突破居功至伟。

深度学习最擅长的是能辨识图像数据或波形数据这类无法符号化的数据。自2010年以来,Apple、Microsoft及Google等国际知名IT企业,都投入大量人力物力财力开展深度学习的研究。例如AppleSiri的语音识别,Microsoft搜索引擎Bing的影像搜寻等等,而Google的深度学习项目也已超过1500项。

深度学习如此快速的成长和应用,也要归功于硬件设备的提升。图形处理器(GPU)大厂英伟达(NVIDIA)利用该公司的图形适配器、连接库(Library)和框架(Frame⁃work)产品来提升深度学习的性能,并积极开设研讨课程。另外,Google也公开了框架TensorFlow,可以将深度学习应用于大数据分析。

人工智能的3种模式

人工智能的概念很宽泛,根据人工智能的实力可以分成3大类,也称为3种模式。

(1)弱人工智能:擅长于单个方面的人工智能,也叫专业人工智能。比如战胜世界围棋冠军的人工智能AlphaGo,它只会下围棋,如果让它下国际象棋或分辨一下人脸,它可能就会犯迷糊,就不知道怎么做了。当前我们实现的几乎全是弱人工智能。

(2)强人工智能:是指在各方面都能和人类比肩的人工智能,这是类似人类级别的人工智能,也叫通用人工智能。人类能干的脑力活,它都能干,创造强人工智能比创造弱人工智能难得多,目前我们还做不到。

(3)超人工智能:知名人工智能思想家NickBostrom把超级智能定义为“在几乎所有领域都比最聪明的人类大脑都聪明很多,包括科学创新、通识和社交技能”。超人工智能可以是各方面都比人类强点,也可以是各方面都比人类强很多倍。超人工智能现在还不存在,很多人也希望它永远不要存在。否则,可能像好莱坞大片里面的超级智能机器一样,对人类也会带来一些威胁或者颠覆。

我们现在处于一个充满弱人工智能的世界。比如,垃圾邮件分类系统是个帮助我们筛选垃圾邮件的弱人工智能;Google翻译是可以帮助我们翻译英文的弱人工智能等等。这些弱人工智能算法不断地加强创新,每一个弱人工智能的创新,都是迈向强人工智能和超人工智能的进步。正如人工智能科学家AaronSaenz所说,现在的弱人工智能就像地球早期软泥中的氨基酸,可能突然之间就形成了生命。如世界发展的规律看来,超人工智能也是未来可期的!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇