什么是人工智能 (AI) 为什么人工智能这么聪明的原因呢

发表时间：2023-07-05 20:53:07

什么是人工智能 (AI)

虽然在过去数十年中，人工智能(AI)的一些定义不断出现，但JohnMcCarthy在2004年的文章 (PDF,127KB)(链接位于IBM外部)中给出了以下定义："它是制造智能机器，特别是智能计算机程序的科学和工程。AI与使用计算机了解人类智能的类似任务有关，但不必局限于生物可观察的方法"。

然而，在这个定义出现之前数十年，人工智能对话的诞生要追溯到艾伦·图灵(AlanTuring)于1950年出版的开创性作品"计算机器与智能"(PDF,89.8KB)（链接位于IBM外部）。在这篇论文中，通常被称为“计算机科学之父”的图灵提出了以下问题：“机器能思考吗？” 他在这篇文章中提供了一个测试，即著名的“图灵测试”，在这个测试中，人类询问者试图区哪些文本响应是计算机做出的、哪些是人类做出的。虽然该测试自发表之后经过了大量的审查，但它仍然是AI历史的重要组成部分，也是一种在哲学中不断发展的概念，因为它利用了有关语言学的想法。

StuartRussell和PeterNorvig随后继续发表了“人工智能：一种现代方法 ”（链接位于IBM外部），成为AI研究方面的重要教材之一。在这本书中，他们深入探讨了AI的四个潜在目标或定义，基于理性、思考和行动来区分计算机系统：

人类方法：

像人类一样思考的系统像人类一样行动的系统

理想方法：

理性思考的系统理性行动的系统

艾伦·图灵的定义可归入"像人类一样行动的系统"类别。

以最简单的形式而言，人工智能是结合了计算机科学和强大数据集的领域，能够实现问题解决。它还包括机器学习和深度学习等子领域，这些子领域经常与人工智能一起提及。这些学科由AI算法组成，这些算法旨在创建基于输入数据进行预测或分类的专家系统。

目前，仍有许多围绕AI发展的炒作，市场上任何新技术的出现都会引发热议。正如Gartner在其hypecycle技术成熟度曲线（链接位于IBM外部）中指出的那样，自动驾驶汽车和个人助理等产品创新遵循“一个典型的创新周期，从欲望膨胀到期望幻灭、到最终了解创新在市场或领域中的相关性和作用。”正如LexFridman在2019年麻省理工学院演讲中指出的那样(01:08:15)（链接位于IBM外部），我们正处于欲望膨胀高峰期，接近幻灭的谷底期。

随着对话围绕AI的伦理道德展开，我们可以开始看到幻灭谷底初见端倪。如想了解更多关于IBM在AI伦理对话中的立场，请阅读这里了解更多信息。

人工智能：让机器拥有学习能力

最近，国内外掀起了一阵讨论人工智能的热潮，其背后主因是以谷歌和脸书为代表的高新技术企业广泛应用机器学习以及深度学习技术开始显现出了良好的效果。特别是在语音识别和图像识别两个领域，这几年的提升非常快。谷歌在2014年将语音识别的精准度从2012年的84%提升到98%，而脸书的人脸识别精度在短短几年里甚至超过人类肉眼的水平。

与此同时，各大企业开始了一场抢夺人工智能人才的大战，比如谷歌设立了“谷歌大脑计划”，并在2014初斥资5亿美元收购了人工智能创业公司DeepMind。国内的搜索巨头百度也不甘示弱，高薪从谷歌挖来了斯坦福大学人工智能专家吴恩达负责“百度大脑计划”。那么，人工智能到底是什么？其经过了什么样的发展历程？未来的人工智能到底会是什么样子？就此，科技日报记者采访了日本KDDI研究所研究员、通讯与网络专家吴剑明博士。

人工智能是如何出现的？

吴剑明博士称，人工智能的概念早在大约60年前就出现了。在1956年美国达特茅斯大学召开的世界第一次人工智能会议上，由当时就职于麻省理工学院的约翰·麦卡锡教授提议并推动后，人工智能概念就成为了一个热门话题。不过在这60年里，人工智能的发展几度起起伏伏，有过红红火火的日子，也有过被打入冷宫受尽白眼的岁月。

那么到底什么是人工智能呢？为什么人工智能之路会如此的沧桑坎坷呢？吴剑明说，顾名思义，人工智能就是让机器拥有学习能力，甚至能够像人类一样去思考工作。在人工智能的早期，有些科学家非常乐观地认为，随着计算机的普及和CPU计算能力的提高，人工智能的实现指日可待。不少早年的科幻电影描述，到了2000年，机器人几乎无所不能。但事实证明，人工智能的发展没有预期的那么美好和顺利，因为人类对人脑机制的理解还是有道迈不过去的坎儿。

一般人看来，人工智能属于计算机科学的范畴，但实际上人工智能覆盖了计算机科学、数学、心理学、哲学和语言学等几乎所有自然科学和社会科学学科，要想有所突破，仅仅靠精通计算机的专家学者和技术人员是远远不够的。幸运的是，强攻不果，迂回之战却有了突破，近年来随着机器学习以及深度学习技术的成熟，人类离人工智能的梦想实现还是实实在在地迈出了一大步。

发展历程：从经典数理逻辑到专家系统

人工智能从出现发展到现在，经历了一个比较曲折的过程。

吴剑明指出，人工智能从1956年概念建立至今，最初的30年是逻辑学派占主导地位，主要是因为逻辑推理和启发式搜索在智能模拟中避开了当时知之甚少的大脑思维规律中深层次的复杂问题，利用了比较成熟有效的逻辑学方法。这在当时计算机性能不高、普及率也很低的条件下显得简单灵活、见效快，是一个捷径。通过计算机实现的人工智能很快在定理证明、问题求解、模式识别等关键领域取得了重大突破，崭露头角。于是早年的科学家们乐观地认为，人工智能与传统计算机程序的本质差别在于它能够进行逻辑推理，依靠逻辑推理定理的完善和计算机的高性能CPU以及大容量存储设备的普及，可以在不久的将来完全解决智能模拟问题。

吴剑明说，逻辑学派撇开大脑的微观结构和智能的进化过程，单纯利用程序或是逻辑学对问题求解的过程来模拟人类的思维过程，所以也被分类为弱人工智能。这种方法专注于建立被解问题的数学模型，即找到该问题输入和输出之间的数量关系，把它转化为一个数学问题，然后找到用计算机实现该数学问题的解决算法。然而经过对经典数理逻辑理论解决智能模拟问题进行深入研究后，科学家们才发现这条路是走不通的。主要原因在于，人工智能中的推理和搜索存在组合爆炸问题。也就是说，计算时间与问题的复杂度成几何级数正比，绝大部分人类的思维过程仅仅靠计算机的高速计算能力是无法模拟和解决的。吴剑明举了个通俗的例子来解释组合爆炸的严重性：一张纸折叠50次的厚度是多少？很多人直觉会认为就是黄页电话号簿的厚度。错了，答案是地球到太阳之间距离！这就是数学上几何级数的恐怖之处。此外，人类思维中的绝大部分问题都无法转化为一个数学问题，原因在于人类思维过程中充满了不确定性、矛盾和演化。而科学家们长期的实验也证明，人类在解决问题时并没有使用数理逻辑运算，人类思考的过程是无法用经典数理逻辑理论进行描述的。

吴剑明称，事实证明，通过经典数理逻辑的方法是实现不了真正的人工智能的，科学家需要找到其他办法来解决所遇到的难题。

他说，在此之后的10多年，也就是80年代开始，人工智能进入了专家系统发展的黄金时代。科学家们发现，人类之所以能快速高效地解决各种复杂问题，不仅是由于人有逻辑推理能力，更由于人具有知识，特别是有关领域的专门知识。这时期尽管也属于前面提到的弱人工智能时代，但确定了基于知识的逻辑推理在智能模拟中的重要地位，人工智能开始从实验室走向实际应用。

但在这个时期，专家系统的瓶颈问题也显现了，那就是知识获取的途径一直没有得到良好的解决，主要原因在于不像现在有互联网，有云计算，有无处不在的智能手机，那个时代专家知识库的构建常常是没有完备性和可靠性保证的经验知识，专家学者和技术人员不得不依靠各种经验性的非精确推理模型。而且，人类思维面临的实际问题中，只有很少一部分是可以确切定义的确定性问题，大部分是带有不确定性的问题。所以当知识工程深入到这些问题时，经典数理逻辑的局限性不可避免地暴露出来了。尽管弱人工智能时代使人工智能理论有了长足的发展和进步，但离实用还有比较大的距离，一直到2000年后机器学习和深度学习的出现，科学家们才发现终于找对了方向。

机器学习：其实是“旧瓶装新酒”

吴剑明指出，如果2000年前是弱人工智能时代，那么2000年之后就可以称为强人工智能时代。

吴剑明说，与弱人工智能相比，强人工智能在最近的十多年里慢慢成为主流。强人工智能又称仿生方法，这个方法认为，人工智能应该专注于模拟人脑的结构机制，也就是说通过计算机模拟人的思维过程，应该通过研究神经元的互相合作机制，而不是逻辑学运算过程。这一学派重视对人脑模型的研究，谷歌就是强人工智能技术的推土机之一。

吴剑明说，在传统上，如果我们想让计算机工作或是按照弱人工智能的方式运作，我们会给它编好一段段的指令，然后计算机就会遵照这个指令忠实地一步步执行下去，或是按照事先制定好的知识逻辑公式推导下去。有前因才会有后果。但这样的方式仍然只属于机器的范畴而不是人工智能。强人工智能和弱人工智能的区别就在于，它们不是接受事先安排好的指令或是逻辑推论，而是从输入的数据里自己发现事物的规律。

吴剑明所说的推动强人工智能迅速发展的机器学习技术。

他认为，近年来大放异彩的机器学习其实是“旧瓶装新酒”。早在1956年人工智能概念出现后不久，就有了对机器学习的研究，但之后迟迟没有进展。和前面提到的专家系统类似，原因在于那个时代知识或是数据获得的途径非常少，难度以及成本又非常大。

机器学习的思想并不复杂，它模拟人类在生活中学习成长的过程，从数据中自动分析获得规律，并利用规律对未知数据进行预测。因为机器学习算法中涉及了大量的统计学理论，所以也被称为统计学习理论。

换句话说，机器学习的本质就是将人的操作/思维过程的输入与输出记录下来，然后统计（又叫做训练）出一个模型用来对新的数据进行预测，使得这个模型对输入输出达到和同人类相似的表现，这种方式也慢慢成了现代强人工智能最基本的核心理念。

大家直观地想象一下人和机器的区别在哪里？其实不在于弱人工智能强调的计算能力、存储能力，或是推理能力，任何人和机器最大的区别在于，人类在成长、生活过程中积累了很多的历史与经验，人类会定期对这些经验进行“归纳”，获得生活的“规律”。当遇到未知问题时，人类会使用这些“规律”对未来进行“推测”，从而指导自己的生活和工作，甚至于去创造新的东西出来。我们老祖宗说得好，“以史为鉴，可以知兴替；以人为鉴，可以明得失”，这与机器学习的思想是极为接近的。机器学习中的“训练”与“预测”过程，也可以分别精确地一一对应到人类的“归纳”和“推测”过程。

吴剑明说，随着现代互联网和个人计算机的普及，以及智能手机的崛起，海量数据和知识的获得变得非常容易和低成本了，这也直接促进了机器学习的飞速发展和实用性的迅速提高。当训练数据的样本足够大，学习算法方向对头的话，就有望接近极限，达到甚至超过人类的能力。比如前几年“谷歌大脑”通过从网络上的上千万张图片学习建立各种各样的猫的品种、颜色、姿势和拍摄角度等特征量，然后对于任意一张图片，它就可以从中把“猫”准确地识别出来。

深度学习：技术进步使之终有用武之地

吴剑明指出，现在除了机器学习，人工智能还出现了一个叫“深度学习”的概念。深度学习是机器学习研究中的一个新的领域，和机器学习相比，它让人工智能又前进了一步。深度学习在机器学习的基础上进一步深入模拟人脑进行分析学习的神经网络，它模仿人脑的机制来训练和预测数据，例如图像、声音和文本。

2012年6月，《纽约时报》披露了应用深度学习的“谷歌大脑计划”，吸引了公众的广泛关注。这个项目的主导之一就是斯坦福大学人工智能专家吴恩达。这一项目用16000个CPUCore的并行计算平台，训练一种称为“深度神经网络”（DNN）的机器学习模型（内部共有10亿个节点），在语音识别和图像识别领域获得了巨大的成功。

吴剑明介绍，和大多数机器学习技术需要事先给训练数据提取特征做标注不同，深度学习直接把海量数据投放到算法中，系统会自动从数据中学习。比如“谷歌大脑”识别猫的算法，在训练数据的时候不用告诉机器“这是一只猫”，深度学习系统自己找到了什么是“猫”这个分类。

机器学习所需要的提取特征做标注，其实需要人工的专业知识和经验，有的时候能不能选好甚至于需要一定的运气。由于这部分人工操作对最终算法的准确性起到非常关键的作用，不但非常消耗时间和精力，且如混入一些模棱两可或是错误的数据，那么很可能会前功尽弃，事倍功半。

既然手工选取特征不太好，人类也不可避免的有主观偏差，那么能不能自动地学习一些特征呢？吴剑明指出，深度学习就是用来干这个事情的，它的一个别名UnsupervisedFeatureLearning，顾名思义，Unsupervised的意思就是不要人参与特征的选取过程。

吴剑明介绍说，这类研究最早起步的契机是，研究瞳孔与大脑皮层神经元的对应关系的科学家们发现了一些有趣的现象，人眼和大脑合作识别看到物体时，通过神经元互相合作很可能有一个分层次识别过程。具体的讲，从原始信号摄入开始（瞳孔摄入像素Pixels），接着做初步处理（大脑皮层某些细胞发现像素色块间边缘的局部变化特征），然后下一步抽象（大脑皮层判定眼前的物体的形状、颜色、质地等），最后再进一步抽象（从周围的场景、物体和物体间的空间位置关系等等）确定识别的物体。

深度学习正是运用了类似的分层次抽象思想，更高层次的概念从低层次的概念学习得到，而每一层都自底向上，对没有人工标注的数据进行学习，最后再用人工监督自顶向下反向进行调优。这一点也为深度学习赢得了重要的优势。

吴剑明表示，现在欧美、日本，包括我们中国的学术界都对深度学习非常关注，深度学习的威力目前在语音识别和图像识别上得到了很好的验证。不过在自然对话、自我进化机器人等人工智能更高深的领域里，它的效果还有待进一步考察。有意思的是，深度学习也是“旧瓶装新酒”，它的思想其实来自于上世纪80年代成熟的人工神经网络技术（ANN）。人工神经网络同样包含输入层、输出层以及中间的若干隐层，每层都有若干结点及连接这些点的边，在训练数据集上会学习区分超平面，从而建立模型。但后来科学家们发现，当时科学家们发现的人工神经网络实用性很差，究其原因，是由于巨大的计算量使得人工神经网络只能包含少许隐层，从而限制了性能。花费了大量人力物力之后，科学家们发现，只有少数几个特殊场景可以成功应用。所以到上世纪90年代开始，人工神经网络失去了关注和经费，成为了食之无味、弃之可惜的鸡肋行业。

但为什么一个上世纪90年代被放弃的技术又重新回到了万众瞩目的地位呢？因为80年代虽然理论基础完备，但真正到达实用所需要的数据和计算能力都不具备。近年来，随着互联网的发展，计算机硬件的价格下降，以及谷歌这样“怪物级”高科技公司的存在，以前高不可及的困难也终于有了解决的可能性。另外，功夫不负有心人，深度学习领域最重要的科学家、多伦多大学的辛顿教授带领的团队一直没有放弃对人工神经网络技术的研究，2006年他在《科学》上发表了一篇文章，解决了神经网络在计算上的难题，同时也说明了深层神经网络在学习上的优异性。辛顿教授提出的新理论大幅度降低了多层神经网络训练上的计算量，减少了训练偏差，和传统机器学习相比，优势明显。从此，神经网络重新成为了机器学习界中的主流学习技术。神经网络改头换面，为深度学习开启了学术界和工业界的新浪潮。

吴剑明指出，深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。区别于传统的机器学习，深度学习的不同在于：首先，强调了模型结构的深度，通常有5层、6层甚至10多层的隐层节点；其次，明确突出了无监督特征学习的重要性，也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与机器学习所需要的依靠人工建立特征的方法相比，利用大数据来自动提取学习特征，是我们朝着真正的人工智能迈进的又一步。

在另一方面，和传统人工神经网络的迭代训练需要过于复杂的计算量不同，深度学习并不同时训练所有层，辛顿教授提出了更为有效的降低训练上的计算量和减少训练偏差的方法。简单的说，就是自底向上每次只训练一层网络，通过非监督学习“逐层初始化”（layer-wisepre-training）网络，当所有层训练完之后，再自顶向下反向调教（backpropagation）优化。打个比方，人类的大脑发育初期，大脑每一部分的职责分工并不是明确的，我们对外界事物的理解由浅到深也是出自于本能或是实践，而去了学校学习后则可以通过后期教育来纠正自己错误的认识，进而对事物有更为体系和深入的理解。

即使这样，深度学习也是需要很大的计算量的，好在近年来，得益于计算机速度的提升、大规模集群技术的兴起、GPU的应用以及众多优化算法的出现，耗时数月的训练过程可缩短为数天甚至数小时，深度学习终于在实践中有了用武之地。

未来发展：通过仿生学思路实现突破

吴剑明指出，目前世界各科技发达国家人工智能的发展路线不尽相同。和其他科技领域有些相像，在人工智能行业，一直是欧美在带头创造新理论，而日本则是在改良和应用上下工夫。相对来说，日本在硬件方面，比如机器人的精密机器制造、机器人仿人运动方面有优势，但在关键的人工智能理论方面，新创或是原创的理论很少，所以不管在学术界还是在产业界，目前看来还不如欧美，特别是美国那么活跃。此外，可能和日本经济的长期不景气有关，近年来一些日本大公司对研发投入的决心和长期眼光还不够。比如在语音识别领域，由于谷歌走在了前面，一些日本大公司干脆就放弃了自家的语音识别技术转而使用谷歌的技术。但这样一来，人工智能的关键入口和背后的大数据就被谷歌给夺走了，这也导致在人工智能领域很难再翻身超越。

至于哪个路线的未来性更大，吴剑明表示，尽管机器学习和深度学习在语音、图像、文本识别上有了长足的进步，也让计算机变得聪明智能了很多，但和人类所具有的智能相比，仍然有本质区别。比如计算机能精确识别人脸、物体，但是却无法识别如张三闯红灯、李四喝醉了这样更为抽象的场景。

人类具有丰富的联想能力、理解能力、创造能力，要实现这些能力而又不通过建立人脑类似的机制，就会绕很大的弯路，几乎是不可能的。要真正实现强人工智能，必须借鉴人脑先进结构和学习思维的机制，再通过深度学习这样的方法进行规模、结构和机理上的模拟，通过仿生学思路实现人工智能的突破。

当然，人类是从低等生物经历几十亿年、在地球生态圈这么庞大的空间中进化而来，要获得人类这样充足的进化时空环境几乎是不可能的。在没有完全弄清大脑原理之前，通过模仿部分人脑原理来逐步渐进，可能是比较现实的办法。比如谷歌在收购DeepMind之后明确表示，不会首先将其应用在机器人部门，而是先从基础的语义识别开始。而百度也是将深度学习技术应用在具体的用户服务方面，比如说提高中文语音识别率、完善图像识别能力。所谓循序渐进，按部就班，就像人类一样有五感才会有思考，把人工神经网络低层的学习水平给完善了，才会有更抽象的高层的学习水平的突破。从这点来看，应该对深度学习未来进一步的理论发展充满希望。

吴剑明表示，深度学习运用在各个单独领域比如声音识别、图像识别时已经得到了很好的效果，当计算机不需要被事先告知明确数据含义，下一步能够融合吸收和理解各个部分的数据，起到1+1>2的作用时，人工智能也许将会被真正兑现。

什么是人工智能机器人为什么会这么聪明人类是怎么做到的

说起人工智能，给大多数人的感觉都是很高大上的，那我们可能想到的就有自动驾驶汽车。其实除了自动驾驶，我们目前的生活中，有很多的人工智能已经逐渐地走进了我们的生活，比如说人脸识别，停车场车牌识别，智能语音等等。

那么什么是人工智能呢？通俗一点说我的理解，人工智能就是可以通过视觉和听觉获得信息，然后再通过运算，再把信息反馈给我们的智能设备。比如人脸识别是可以识别人脸，语音导航可以听人的声音，然后反馈给你路线。那智能语音翻译，是通过听各种语言然后转化为文字。那么问题来了，如何才可以做到让机器看图片，或者看到我们现实的情景的时候，

能识别出是什么东西，听语音的时候，可以知道你在说什么，然后再反馈给我们想要的信息呢。

我们可以想象一下，人类从出生到参加工作，整个的过程我们是怎么一点点地认知这个世界的呢？就拿香蕉来举个例，比如我们学习认识香蕉，那就需要人拿着一个香蕉在我们的面前，并要告诉。那你这是香蕉。同样的类比，让机器来知道这是香蕉。我们要想教会机器认识一个香蕉，我们直接就给他一张香蕉的照片。

机器它是完全不知道这是什么东西。我们先得有香蕉的图片，再用专门用来帮助机器学习的识别软件。在图片上呢标注香蕉两个字，然后呢机器通过我们提供大量的各式各样的香蕉特征的图片来给他进行学习。这时候呢我们再给机器任何一张香蕉的图片，他就能认出来这是什么。

人工智能实际上是人工在前，智能在后。要给机器进行学习训练来认知这个世界。这就需要人类提供庞大的图片、音频、视频、文本。等等这些数据，并且需要庞大的人工对机器进行学习训练。也就是现在兴起的一个新职业，就是产业数据采集员、数据标注员，大家网上可以搜搜这两个词汇。

比如我们准备1000张香蕉的图片，拿出900张让机器去学习，机器会从900张图片中学习，他就会得到一个模型，然后再拿剩下的100张，作为给机器的测试。

你给机器学得越多，机器的准确率就会越高。利用数据集的辅助算法，来给机器深度的学习。那这些数据的采集、清洗和标注，就必须需要人工来完成。需要大量的数据标注人员一起来坚守和完成。

在国外比较知名的像谷歌、亚马逊、facebook等等，在国内比较大的平台。和百度众测，阿里众包等等，他们会在平台上发布一些任务，业内的人就会接单，去完成数据标注的工作。

类似滴滴打车接单是一个道理。那么通过这些数据的采集和标注，可以让人工智能的机器深度的学习。使得人工智能设备会变得越来越聪明。

数据是人工智能的基石，有了这些数据，那自然就对计算机的计算能力提出了更高的要求，那么有了计算能力，对网络传输能力还会提出更高的要求。因为数据庞大，计算能力庞大，传输能力也要跟得上。那么我们当前随着计算机芯片计算能力的加强以及5G网络的普及，这些关键的技术难点就都解决了。所以说将来人工智能一定是必然的趋势，也会给我们带来更高效和便捷的生活。历史上人工智能经过了2次发展的热潮，1956年科学家就已经提出了人工智能的概念，直到今天芯片计算能力的提高，5G网络速度的加快，所有我们今天的人工智能又迎来了第三次的爆发期。

人工智能的未来之路

演讲人：刘嘉演讲地点：清华大学人文清华讲坛演讲时间：2022年11月

演讲人简介：

刘嘉，麻省理工学院博士，心理学家，长期从事心理学、脑科学与人工智能研究。清华大学基础科学讲席教授、心理学系系主任、清华大学脑与智能实验室首席研究员、北京智源人工智能研究院首席科学家。

人的认知与大脑构造

为什么人如此难以理解？为什么这个世界总是让我们产生很多困惑？这是人类从有文明开始就一直存在的问题，道理其实非常简单。

首先，我们看见的世界只是这个世界中非常小的一部分，我们忽略了绝大部分的东西。

我们在清华做过一个小实验：一位戴黑色渔夫帽的女士在清华问路，在她问路的时候，我们安排一块隔板从戴黑色渔夫帽的女士和被问路的人之间穿过。当板子过来时，原来问路的女士抬着板子走开了，而原来抬板子过来的另一位戴蓝色渔夫帽的女士留了下来，由她继续问路。在7个被问路的人中，只有一个人注意到了提问人的变化。这个小实验的问路场景里，人们其实只看见了世界上非常小的一部分，由于这些是不重要的信息，人们就容易忽略掉这些信息。

但更可能发生的是，人们的认知还会扭曲这个世界。比如图1这一组图里，有两个拼在一起的方块图，一个颜色深一点，一个颜色浅一点，还有一个圆环，它的灰度介于两者之间，圆环左右两半颜色一样。但如果把两个方块图分开，大家一般都会觉得圆环的颜色一边变浅了，一边变深了，事实上，它们的颜色仍是完全一样的。再把这个圆环分开，变成上下移动，这时看见的东西有立体感了，好像是深灰色的东西盖上了一层浅色的毛玻璃，以及浅色的板盖上了深色的毛玻璃。

我们无时无刻不在观察这个世界，但又无时无刻不在扭曲这个世界，这到底是为什么？

这其实取决于我们的视觉系统。假如外部世界存在一个绿苹果，它会以大约100亿比特/秒的信息量进入我们的视网膜，视网膜通过约100万个神经连接，连接到视觉皮层，这个时候我们的信息流就从百亿比特/秒变成600万比特/秒；经过视觉初级皮层加工再传到高级皮层来决定看到的东西是什么时，信息流又变成了100比特/秒。这时信息量衰减了1亿倍。可见，当我们做决策时，我们获得的信息其实是非常有限的，所以我们就需要构造出新的东西，把缺失的信息补上，而我们的大脑就像魔术师一样来弥补这些缺失的信息。这一方面可以解释为什么有很多东西我们看不见——因为传输过程中已经被人脑衰减掉、过滤掉了；同时也可以解释，为什么有的人看见一个绿苹果会认为是红苹果——因为这个重构的过程是创造性的，不是简单复制。正是基于这个构造，我们也可以把一个苹果看成一个梨子，这是我们大脑构造的过程，是一个正常的现象。

人脑重构的意义

为什么我们的大脑不能像摄像机、照相机一样忠实客观地反映物理世界，为什么非要自己来重构这个世界？这样的人脑重构究竟有什么好处？

正如康德所言：“没有感觉支撑的知识是空的，没有知识引导的感觉是瞎的。”这句话的前半句说的是，如果没有外部的输入，我们很难构建自己的心理世界，但我想强调的是下半句“没有知识引导的感觉是瞎的”。如果你不知道你看的是什么东西，那你就等于什么都看不见。这是因为，这个世界是模棱两可的，需要我们去构造，把我们的理解加进去，只有这样我们才能真正知道这个世界究竟发生了什么。

与理解相比，更重要的是创造。当大脑没有被外部信息填满而留下空间时，我们能够在这空间里创造出自己想要创造的东西。正如《小王子》的作者圣·德克旭贝里所言：“一堆岩石在有人对着它思考时就不再是岩石了，它将化身为大教堂。”这就是人类了不起的创造——当我们的祖先跋山涉水来到一片荒原，他们看见的不是一堆乱石，而是未来的家园。所以，在过去的300万年里，人和猴子分开进化，人的大脑体积增加了3倍；但是，这体积并不是平均增加的，增加最大的地方在额叶：与200万年前的祖先能人相比，我们的头骨往前突出，以容纳更大体积的额叶，而强大的额叶使我们能构造出不存在的东西。比如我们的祖先准备去打猎，不用等看见猎物才做出反应，他只需要提前想象狩猎的情景，就可以把一切安排好。如此一来，人可以把未来在脑海里“演”一遍，构建出一个个可能的未来，从而对未来做出行动方案，这是人类能够战胜其他比我们更强大更凶猛的动物，成为万物之灵的关键。这也印证了荀子的一句话：“然则人之所以为人者，非特以二足而无毛也，以其有辨也。”

重构心理世界的知识从何而来

人脑对世界的构造，总是需要先验知识，而先验知识一部分来自基因的烙印。换言之，我们来到这个世界时并不是一块白板，而是带着32亿年的智慧来的，这些智慧就印刻在基因中。

我们曾经用我校心理系女教授和女博士后的照片，做了一个有趣的小实验：如果把她们的脸全部叠加起来，做一张“平均脸”，大家普遍反馈说这张“平均脸”充满两个字：“睿智”。“平均脸”所代表的意思是什么？人脸其实是我们的基因图谱——我们的基因都写在脸上，当我们把脸平均起来之后，得到的是这18位老师平均的基因，平均的基因代表突变很少。而基因一旦突变，大概率是有害的，基因突变越少，说明基因越好，携带遗传性疾病的概率就越低，这就是为什么人们普遍会觉得“平均脸”更好看、更符合我们的审美。

既然脸是我们的基因图谱，对生存来讲如此重要，我们便需要发展出非常强大的看脸能力，即面孔识别。我们研究小组已经通过实验证明，面孔识别能力也写在人类的基因里。我们找了两类双胞胎，一种是同卵双胞胎（由同一个受精卵发育而来），基本上具有100%相同的基因。另外一种是异卵双胞胎（由两个独立的受精卵发育而来），基因遗传物质的平均遗传度大概是50%。通过比较他们在面孔识别上的能力，我们发现同卵双胞胎在面孔识别任务上的相似程度更高，即面孔识别的能力受遗传因素的影响。这一点也可以从我们的另一研究得到验证，即面孔失认症或者大家说的“脸盲”。

在图2显示的这个遗传树里，只要孩子有面孔失认症，他的父母中大概率有一个也是面孔失认症。第二幅图里有一个有趣的三角，三角形底边的两个端点代表的就是同卵双胞胎。当时我们在大学里测试了一个女孩，发现她有面孔失认症，那女孩说她有一个同卵双胞胎姐姐，我们把她姐姐请来一测，发现果然也是面孔失认症。

②

“自尊”对大脑的影响

除了看别人的面孔，我们也常常照镜子看自己。最喜欢照镜子的人据说是纳西索斯，他是古希腊神话里的超级帅哥，对自己的面孔着了迷，每天趴在溪边，通过水的倒影欣赏自己的绝世美颜。心理学由此称这种现象为“纳西索斯情结”，意思是一个人高度自恋，对自己爱到了极致。

其实对自己的爱，对自己面孔的欣赏，背后反映的是一个非常重要的特质，即人类的自尊。自尊是个体对自己的总体态度，人分成高自尊和低自尊两种。

什么是高自尊？这里有四个问题：1.你是否认为你是一个有价值的人？2.你是否认为你拥有很多美好的品质？3.你是否对自己满意？4.你是否对自己持肯定态度？

如果你对每道问题的回答都是“是”，那么你就是高自尊的人。“自尊”在我们面临困境时能提供极大的帮助。

当一个人长期经受压力和苦难，身体会变得差，心理幸福感会低下，更糟糕的是，认知发展会受损，认知能力会比别人低很多，体现在大脑上就是海马体会受到极大的损伤，而海马体是人学习、记忆、空间导航的中枢。

自尊在压力源和心理世界之间建立起一道牢不可破的防线，它就像勇敢的士兵一样挡在人的心理世界面前，帮人把压力、负性事件挡在外面，让人能够正常、健康地成长。人有两种资本，一种是物质资本，一种是心理资本，自尊自信、理性平和，这些就是心理资本。物质资本富裕的人未必有高自尊，而处境不利的人没有丧失他的自尊与自信时，就很可能在触达低点时再反弹，并达到人生新的高度。

我们所处的物理世界永远是不完美的，总有让人不满意之处，但是每个人可以在一个不完美的物理世界里构建出一个美好的心理世界。为什么？因为我们的大脑就是一个构造体，从物理世界所接收到的信息，经过大脑的工作，可以构建出一个完美的心理世界。这正印证了社会心理学家班杜拉所说的一句话：“人既是环境的产物，也是环境的营造者。”

人的双链进化

人和动物的进化有着本质的区别。动物是按照基因，按照达尔文的进化论，一点点试着生存、前进。人除了有代表着过去的生物基因的演化，还有另外一条演化线，即基于社会基因（Meme）的演化，而这条线带着我们以与动物不一样的方式前进。

生物基因由一些碱基对构成，那社会基因是什么？远古时，我们的祖先中有一位突然因为某种原因能够把火生起来了，一种知识、技能被创造出来，这就相当于基因在突变，一个优秀的基因产生了。会生火的这种技能、知识就像基因一样开始传播给其他人，从一个部落传到其他部落，慢慢地生火就从个人拥有的技能变成人类拥有的技能。渐渐地，人们又开始会制作长矛和其他工具，经过漫长的发展，逐步构建成今天的人类社会。这就是为什么我们一直强调知识、文明是如此重要，而大学就是文明的产房。孟子说过：“人之所以异于禽兽者几希；庶民去之，君子存之。”这里的“几希”就是我们的文明，就是我们在演化过程中所创造所传播的社会基因。

科技发展的主要目的之一，是要让知识的扩散变得更快、更便利。大约在六千年前，人类最早的文字楔形文字在新月地带被发明出来，使得人类的知识技能可以被记录下来，可以被忠实传播。之后的活字印刷，以至今天的电话、电报、互联网等等这一切，使得我们能够更加高效地把知识传播出去，推动文明加速演化。

人类的文明时代大约可以分成三个阶段：第一个阶段是原始文明，大约经历了两百多万年，它的前十万年和后十万年没有什么太大变化。第二个阶段是农业文明，大约经历了四千多年，这个时候人类开始变成文明种族，懂得了一些天文地理知识等等，学会种植庄稼，可以驯服野兽，把它们变成家畜，但发展依然十分缓慢。真正带来巨大变化的是第三个阶段，即工业文明。工业文明从开始诞生到现在，不过是短短三百年；但在这三百年里，变化是如此之快，以至于我们不得不将它再细分成四个阶段，第一个阶段是机械化时代（1760-1840年代），出现了蒸汽机等。第二个阶段是电气化时代（1840-20世纪初），出现了电力等。第三个阶段是自动化时代（1950-21世纪初）。而第四个阶段，就是我们现在所处的信息时代。

人工智能的进展

2002年，我的博士论文答辩题目是《面孔识别的认知神经机制》，在答辩的第二张PPT里我这么写道：“现在最先进的机器识别面孔的正确率只能是随机水平，而人类能够在一秒钟内识别上百张面孔，为什么人类如此伟大，为什么人类如此聪明，为什么机器如此愚笨？”

在2002年，机器识别人脸还可以说是“一塌糊涂”。到了2015年，我作为江苏卫视《最强大脑》的总策划，设计人机大战项目，即机器和人比拼面孔识别，看谁的能力最强。比赛的结果让我震惊：经过十几年的发展，人工智能已经强大到在人脸识别上胜过人类的最强大脑。我当时非常庆幸我的博士论文是在十几年前答辩的；如果我现在这么开题，可能就拿不到博士学位了。

当时除了震惊，还有好奇：人工智能究竟是靠什么来达到和人一样的面孔识别水平，甚至超越人类的水平？

我们建立了一个人工神经网络，训练它去识别性别，即区别是男性还是女性，它的正确率能达到100%。这个神经网络究竟是靠什么把男性和女性区分开？我们找了一张中性面孔，就是把男性和女性面孔求平均，给它加上随机噪音，然后“喂给”人工神经网络，它有时候会判断这个图是一个女性，而这个面孔加上其他噪音，则会被判断为男性。于是，完全一样的底图，加上不同的噪音，就会得到一组被人工神经网络认为是女性的图和一组被认为是男性的图。当把这组被认为是女性的图中的中性面孔去掉，只留下噪音时，这些噪音叠加起来，我们得到的就不再是随机噪音，而是人工神经网络用于识别女性的内部表征。同样，我们也可以得到男性面孔在这个神经网络中的内部表征。进一步，我们把两者相减，就得到了人工神经网络用以区分男性和女性的模式。在这个模式里，可以看到，眼睛、眉弓、鼻子、人中是它认为的区分男性和女性的关键特征。而这些关键特征，的确是我们人类用于区分男性和女性的关键特征，它们的相似度达到了0.73，这是非常高的相关度。但是，自始至终，我们并没有告诉过这个人工神经网络：你应该用什么方式去识别男性和女性；只是要让它做这件事情，它就会产生跟人类类似的内部表征、认知操作，从而完成性别判断。也就是说，人工智能在这个过程中呈现出和人类一样的心理世界。

在那一刻我开始意识到，生物过去的进化都是一条单线，基于碳基的方式运行。但是当人类创造出人工智能之后，人类文明就很可能不再是平滑向前，接下来或许会出现一种革命性的跃迁，可能在文明的进化中出现奇点。

为什么这么说呢？我们来看人类和人工智能的三大区别。

第一，算力。人类的大脑通常重3.5斤左右，虽然只占我们体重的2%，但消耗了我们身体25%以上的能量，因此它是一个耗能大户，已经达到了我们身体能够支撑的极限。所以，人类的大脑看起来已经到了进化极限，再给一千年、一万年，人类的大脑很可能不会变得更大，聪明程度也不会增加。但是对于人工智能来说，一块CPU不够可以再加一块CPU，一块硬盘不够可以再加一块硬盘，理论上它有无限的算力和无限的存储能力。

第二，寿命。人的寿命是有限的，再伟大的思想也有停止的一刻。但人工智能的寿命是无限的，CPU烧了可以换块CPU，电线断了再换根电线就行。

最关键的，是人工智能的无尽可能。对于人类而言，一般来说有两种知识，一种是可以描述的明知识，比如牛顿定律。一种是可以感受但难以描述的默知识，比如骑自行车的知识。此外还有第三种知识，是人类所没有而机器拥有的，即暗知识，它不可感受，不可描述，不可表达，它是存在于海量数据中万世万物之间的联系，数量极其巨大，人类无法理解。

2016年，AlphaGo击败了人类围棋顶尖高手之一李世石。当时世界围棋积分排名第一的围棋手柯洁说：“我们人类下了2000年围棋，连门都没入。”棋圣聂卫平说：“我们应该让阿老师（AlphaGo）来教我们下棋。”这不是他们谦虚，而是事实。一个人不吃不喝一辈子所下的围棋最多也就是10万盘，而从人类发明围棋到现在，累计总共下了大约3000万盘围棋。而围棋的空间有多大呢？一个格子可以有三种状态，放白棋、放黑棋或者不放，而棋盘总共有19×19个格子，所以它的状态总共有319×19种，大约等于10172，这比整个宇宙中的原子数量还要多。相对于如此庞大的围棋空间，人类的两千多年探索，只是这个空间里一个微不足道的小点，而大部分空间还是一片黑暗。AlphaGo之所以比人类更加强大，并不是它比人类聪明，而是因为它探索了更大的空间，因此找到了更多下法而已。牛顿曾说：“我就像在海边玩耍的小孩，偶尔拾到美丽的贝壳，就高兴不已。但面对真理海洋，我仍一无所知。”现在看来，这不是牛顿谦虚，而是实情。

再看一下艺术。目前人工智能已经可以制作达到专业水平的绘画（图3、图4）和音乐。此外，律师、医生、税务师、咨询师等需要非常专业的知识的“金领”职业，也逐渐出现了人工智能的身影，看起来很可能有一天会被人工智能取代。神经网络之父、深度学习的创始人杰弗里·辛顿（Geoffrey Hinton）接受麻省理工学院的《Tech Review》采访时说：“将来深度学习可以做任何事情。”

③

④

人工智能与类人智能的巨大差距

人工智能真的已经无所不能吗？心理学家考验了当时最先进的人工神经网络模型GPT-3。他们认为之所以GPT-3显得非常聪明，是因为问了它智能的问题。假设问它一些很“弱智”的问题，它会怎么回答？他们问它：“我的腿上有几只眼睛？”这个连没有上过学的小孩都能正确回答的问题却难倒了GPT-3，它回答说：“你的腿上有两只眼睛。”这表明它并不理解眼睛是什么，它只是在做关联而已——人有两只眼睛，腿是人的一部分，所以它认为腿上应该有两只眼睛。这个例子充分印证了爱因斯坦名言：“任何傻瓜都知道，关键在于理解。”GPT-3知道但并不理解眼睛究竟是什么，而理解，恰是我们人类真正了解这个世界、能在这个世界里自由徜徉的关键。

杰弗里·辛顿显然也意识到了这个问题，他表示，我们可以进一步发展人工智能，当一个人工智能能够准确描述一个场景，它就是理解了。真是这样么？假设有这么一个场景：有个人从柱子上狠狠摔了下来，摔倒在地。如果让人工智能来描述这个场景，它会说一个人从柱子上掉下来了。而我们对这个场景还有一个很重要的反应——“疼”。这个区别体现了人类具有一种特别重要的能力，即共情：别人遭受了苦难我能感同身受，而这种感受是自动的。共情不是一种奢侈品，而是一种必需品，因为当一个孩子没有这种感同身受的能力，缺乏同理心，他在小时候就很难对父母产生依恋，很难和其他小朋友玩到一起；在长大以后，会对社交常情缺乏理解，对他人情绪缺乏反应，不能根据社交场合调整自己的行为，有可能做出反社会的行为。假设我们的未来是由一台台没有共情的机器所组建的“自闭症”式的社会，这个社会还能有文明吗？这个社会还能有发展吗？所以，人工智能的奠基人之一马文·李·明斯基说过这么一句话：“现在的问题不是一个智能的机器是否拥有情感，而是不拥有情感的机器是否能拥有智能。”在马文·李·明斯基看来，情感是智能的基础，得先有情感才有智能。

又如在好莱坞电影里，美国的黑手党跑去找一个店家说：“你这个蛋糕店看上去真不错，如果意外发生火灾烧掉那就太可惜了。”请问这个黑手党的话是什么意思？A：请店家做好消防工作，别烧掉了店铺，那样太可惜了。B：请店家交保护费，要不然就要烧掉店铺。对我们而言，答案显而易见是B，是黑手党在威胁并勒索店家。但是对于机器来说，它还很难理解这话背后隐藏的推理和因果。正如古希腊哲学家德谟克利特所言：“我宁可找到一个因果的解释，也不愿成为波斯人的王。”对人而言，我们认为万事万物都是有因果的，而正是这种对因果的执着使我们能够推理，能够把零散的万世万物联系在一起，构成一个个故事。

其实笛卡尔四百多年前就说过：“即使机器可能在某些方面做得和我们一样好，甚至更好，但它们在其他方面不可避免地会失败。这是因为它们不是通过理解而只是根据预设来行动。”这一点，到现在还没有发生本质的改变。

所以，虽然目前人工智能取得了很高的成就，但是和人的智能仍然存在巨大差距，依然没有达到类人智能。那么未来如何实现类人智能呢？我认为，关键点就在于脑科学+人工智能。

举个简单的例子：线虫是一个非常简单的生物，只有302个神经元。但是，麻省理工学院的研究者模仿了其中19个神经元，就完成了自动驾驶这个任务，其参数比传统的大模型足足低三个数量级，只有75000个参数，而这个仿生的人工神经网络对不同道路具有非常高的通用性和可解释性，以及非常强的鲁棒性。仅仅模仿来自简单生物的19个神经元，就可以完成自动驾驶的初步任务，这是因为生物不是靠神经元的数量取胜，而是靠32亿年进化形成的智慧取胜，这项研究模仿的其实是32亿年进化形成的智慧。从这个角度讲，人类的大脑是目前世界上最聪明的大脑，有860亿个神经元，平均每个神经元有3000个连接，它代表着宇宙中在智力上所能达到的最高成就。那么，人工智能为什么不能向人脑学习，以人脑为模板、以人脑为借鉴，来发展出更好的人工智能呢？

对线虫神经元的模仿，只是一个开始，下一步也许我们会去模仿神经元数量百万级的果蝇、更高量级的斑马鱼，甚至小鼠、大鼠、猕猴，最后是人类。仅仅从神经元的数量上来讲，这就是一个巨大的挑战，因为神经元的数量足足差了9个数量级，而还有更多更大的挑战来自机制和算法，以及更多的未知。但是我坚信，脑科学加上人工智能，有一天也许能够造出一个媲美人脑的数字大脑。

小结

莎士比亚说：“所谓过往，皆为序章。”我们的现在是过去的未来，已经写定，但我们的此刻绝对不是未来的过去，因为我们的未来是未定的，取决于我们现在如何做出选择。

人类发明了人工智能，在今天随着算力的增加、技术的进步，它开始有了超越人类的可能。我们现在需要对具有一切可能的未来做出选择。

在我看来，未来大约有三种可能。第一种，人工智能像科幻电影《星球大战》里的R2-D2一样，是人类忠实的伙伴，成为人类非常好的朋友，帮助人类变得更强大。第二种可能，我们构建出一个数字大脑，它的能力可能比现在人类的大脑更强，这时可以实现人机合二为一，把我们的意识、记忆、情感上传到这个数字大脑里，如果CPU坏了就换一块CPU，内存需要扩大一点就加点内存，这样人就可以获得精神上的“永生”。未来学家库兹韦尔在《奇点来临》这本书中认为大约在2045年，这一刻就会到来。第三种可能，就是科幻电影《终结者》里所展示的，人类文明消失。

未来会怎么样，最终取决于我们现在做什么。这很重要，因为我们今天站在了这个进化的节点之上。

《光明日报》（2022年12月24日 10版）

[责编：孙宗鹤]