人工智能的发展与未来
随着人工智能(artificialintelligent,AI)技术的不断发展,各种AI产品已经逐步进入了我们的生活。
现如今,各种AI产品已经逐步进入了我们的生活|Pixabay
19世纪,作为人工智能和计算机学科的鼻祖,数学家查尔斯·巴贝奇(CharlesBabbage)与艾达·洛夫莱斯(AdaLovelace)尝试着用连杆、进位齿轮和打孔卡片制造人类最早的可编程数学计算机,来模拟人类的数理逻辑运算能力。
20世纪初期,随着西班牙神经科学家拉蒙-卡哈尔(RamónyCajal)使用高尔基染色法对大脑切片进行显微观察,人类终于清晰地意识到,我们几乎全部思维活动的基础,都是大脑中那些伸出细长神经纤维、彼此连接成一张巨大信息网络的特殊神经细胞——神经元。
至此,尽管智能的具体运作方式还依然是个深不见底的迷宫,但搭建这个迷宫的砖瓦本身,对于人类来说已经不再神秘。
智能,是一种特殊的物质构造形式。
就像文字既可以用徽墨写在宣纸上,也可以用凿子刻在石碑上,智能,也未必需要拘泥于载体。随着神经科学的启迪和数学上的进步,20世纪的计算机科学先驱们意识到,巴贝奇和艾达试图用机械去再现人类智能的思路,在原理上是完全可行的。因此,以艾伦·图灵(AlanTuring)为代表的新一代学者开始思考,是否可以用二战后新兴的电子计算机作为载体,构建出“人工智能”呢?
图灵在1950年的论文《计算机器与智能(ComputingMachineryandIntelligence)》中,做了一个巧妙的“实验”,用以说明如何检验“人工智能”。
英国数学家,计算机学家图灵
这个“实验”也就是后来所说的“图灵测试(Turingtest)”:一名人类测试者将通过键盘和显示屏这样不会直接暴露身份的方式,同时与一名人类和一台计算机进行“网聊”,当人类测试者中有七成都无法正确判断交谈的两个“人”孰真孰假时,就认为这个计算机已经达到了“人工智能”的标准。
虽然,图灵测试只是一个启发性的思想实验,而非可以具体执行的判断方法,但他却通过这个假设,阐明了“智能”判断的模糊性与主观性。而他的判断手段,则与当时心理学界崛起的斯纳金的“行为主义”不谋而合。简而言之,基于唯物主义的一元论思维,图灵和斯金纳都认为,智能——甚至所有思维活动,都只是一套信息处理系统对外部刺激做出反应的运算模式。因此,对于其他旁观者来说,只要两套系统在面对同样的输入时都能够输出一样的反馈,就可以认为他们是“同类”。
1956年,人工智能正式成为了一个科学上的概念,而后涌现了很多新的研究目标与方向。比如说,就像人们在走迷宫遇到死胡同时会原路返回寻找新的路线类似,工程师为了使得人工智能达成某种目标,编写出了一种可以进行回溯的算法,即“搜索式推理”。
而工程师为了能用人类语言与计算机进行“交流”,又构建出了“语义网”。由此第一个会说英语的聊天机器人ELIZA诞生了,不过ELIZA仅仅只能按照固定套路进行作答。
而在20世纪60年代后期,有学者指出人工智能应该简化自己的模型,让人工智能更好的学习一些基本原则。在这一思潮的影响下,人工智能开始了新一轮的发展,麻省理工学院开发了一种早期的自然语言理解计算机程序,名为SHRDLU。工程师对SHRDLU的程序积木世界进行了极大的简化,里面所有物体和位置的集合可以用大约50个单词进行描述。模型极简化的成果,就是其内部语言组合数量少,程序基本能够完全理解用户的指令意义。在外部表现上,就是用户可以与装载了SHRDLU程序的电脑进行简单的对话,并可以用语言指令查询、移动程序中的虚拟积木。SHRDLU一度被认为是人工智能的成功范例,但当工程师试图将这个系统用来处理现实生活中的一些问题时,却惨遭滑铁卢。
而这之后,人工智能的发展也与图灵的想象有所不同。
现实中的人工智能发展,并未在模仿人类的“通用人工智能(也称强人工智能)”上集中太多资源。相反,人工智能研究自正式诞生起,就专注于让计算机通过“机器学习”来自我优化算法,最后形成可以高效率解决特定问题的“专家系统”。由于这些人工智能只会在限定好的狭窄领域中发挥作用,不具备、也不追求全面复杂的认知能力,因此也被称为“弱人工智能”。
但是无论如何,这些可以高效率解决特定问题的人工智能,在解放劳动力,推动现代工厂、组织智能化管理上都起到了关键作用。而随着大数据、云计算以及其他先进技术的发展,人工智能正在朝着更加多远,更加开放的方向发展。随着系统收集的数据量增加,AI算法的完善,以及相关芯片处理能力的提升,人工智能的应用也将逐渐从特定的碎片场景转变为更加深度、更加多元的应用场景。
人工智能让芯片的处理能力得以提升|Pixabay
从小的方面来看,人工智能其实已经渐渐渗透进了我们生活的方方面面。比如喊一声就能回应你的智能语音系统,例如siri,小爱同学;再比如在超市付款时使用的人脸识别;抑或穿梭在餐厅抑或酒店的智能送餐机器人,这些其实都是人工智能的应用实例。而从大的方面来看,人工智能在制造、交通、能源及互联网行业的应用正在逐步加深,推动了数字经济生态链的构建与发展。
虽然脑科学与人工智能之间仍然存在巨大的鸿沟,通用人工智能仍然像个科幻梦,但就像萧伯纳所说的那样“科学始终是不公道的,如果它不提出十个问题,也永远无法解决一个问题。”科学总是在曲折中前进,而我们只要保持在不断探索中,虽无法预测是否能达到既定的目的地,但途中终归会有收获。
参考文献
[1]王永庆.人工智能原理与方法[M].西安交通大学出版社,1998.
[2]Russell,StuartJ.ArtificialIntelligence:AModernApproach[J].人民邮电出版社,2002.
[3]GabbayDM,HoggerCJ,RobinsonJA,etal.Handbookoflogicinartificialintelligenceandlogicprogramming.Vol.1:Logicalfoundations.,1995.
[4]胡宝洁,赵忠文,曾峦,张永继.图灵机和图灵测试[J].电脑知识与技术:学术版,2006(8):2.
[5]赵楠,缐珊珊.人工智能应用现状及关键技术研究[J].中国电子科学研究院学报,2017,12(6):3.
[6]GeneserethMR,NilssonNJ.LogicalFoundationofArtificialIntelligence[J].brainbroadresearchinartificialintelligence&neuroscience,1987
作者:张雨晨
编辑:韩越扬
[责编:赵宇豪]2023,人工智能开启未来新密码
购买大型电器、汽车,你是否会询问有没有智能语音功能?是的,潜移默化中人们已经不再将人工智能当作魔术,而是习以为常的东西。从AlphaGo以四比一战胜棋王李世石,让人们第一次意识到人工智能真的可以超越人类,也让人们对AI的未来前景充满期待。近年来,以深度学习为代表的人工智能技术高速蓬勃发展,新算法层出不穷,图像识别、自然语言、声音克隆等智能水平逼近甚至超过人类。同时人工智能技术的发展,也促进着人类对数据以及算力的不断突破。AI技术各类应用落地,渗透到我们生活的方方面面,已然成为我们不可缺少的一部分。1.2021回顾回顾跌宕起伏的2021年,新冠疫情仍然肆虐着世界,看不到疫情结束的信号。疫情带来国际形势的突然变化,深刻地影响着全球半导体产业链及生态,同样对人工智能行业带来冲击。国际间的算力竞争异常激烈,如果算力不在一个维度上,竞争力自然就不在一个维度上。2021年我国因为芯片不足导致供应链断裂的事件此起彼伏,因此数字化、智能化转型被列为国家重点发展规划中,已成为大势所趋。疫情虽然还没有结束,但丝毫不影响2021年人工智能领域汹涌澎湃的发展,振奋人心的消息频频传来。商汤科技,成为国内「AI四小龙」中第一家IPO成功的上市公司;AphaFold2成功预测98%蛋白质结构;无人驾驶领域,技术和算法层面的不断突破让L4场景落地日益成熟,掌握自动倒车、抢道行驶等众多接近人类驾驶的行为。2021年10月,中国科学技术大学潘建伟、陆朝阳、刘乃乐等组成的研究团队与中国科学院上海微系统与信息技术研究所、国家并行计算机工程技术研究中心合作,构建了113个光子144模式的量子计算原型机“九章二号”,完成对用于演示“量子计算优越性”的高斯玻色取样任务的快速求解,求解速度比目前全球最快的超级计算机快10的24次方倍(亿亿亿倍)。我们正处在人类技术爆炸时期,人工智能赛道相信也必将独占鳌头。多模态多模态学习旨在使计算机拥有处理不同来源信息的能力,近年来成为了人工智能领域的研究热点。将不同模态信息进行融合,学习不同模态信息之间的关联。2021年是OpenAI实现图像和文本匹配的CLIP和根据输入文本生成对应图像的Dall·E开启了多模式学习的重要一年。同时DeepMind的PerceiverIO对文本、图像、视频和点云实现分类以及斯坦福大学的ConVIRT在医疗X光影像中添加了文本标签,都预示着多模态学习正在崛起并且渗入到其他领域。Facebook也表示在其仇恨言论检测器中也使用了多模态学习,用以删除了社交网络中97%的辱骂以及有害内容。该系统能根据文本、图像和视频在内的10种数据类型,将模因和其他图像文本配对归类为良性或有害。同时谷歌也表示在搜索引擎中添加了多模态(及多语言)功能,实现了多任务统一模型能返回文本、音频、图像和视频链接,以响应75种语言中任意一种的查询等。巨大模型让机器去理解人类语言一直以来都是人工智能的核心夙愿,只有将人脑独有的自然语言赋予机器,才能真正让机器“活”过来。随着OpenAI去年提出GPT-3模型,在各大平台引起热议,让我们似乎触摸到了上帝的领域。GPT-3模型比全球最大深度学习模型TuringNLP大上十倍,而且不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力。根据论文所述,GPT-3是一种具有1750亿个参数的自然语言深度学习模型。就在大家还沉浸在GPT-3模型庞大参数量的时候,谷歌SwitchTransformer开启了2021年首个超过1万亿参数的模型,参数规模高达1.6万亿。随后北京智源人工智能研究院推出更大的、拥有1.75万亿参数规模的大模型悟道2.0。资金雄厚的人工智能公司正以狂热的速度堆积参数,既为提高性能,也为秀肌肉,特别是在语言模型中,互联网为无监督和半监督的预训练提供了大量无标签的数据。然而模型从“大”走向“巨大”的确可以使得效果越来越好,但同时带来更多的问题与挑战。(1)数据挑战:巨大的模型需要海量的数据,但网络和数字图书馆来源缺乏高质量的数据。例如,研究人员常用的BookCorpus是一本由11000本电子书组成的数据集,用于训练30多种大型语言模型,它可能会传播对某些宗教的偏见。人工智能社区越来越意识到数据质量至关重要,但在收集大规模高质量数据集的有效方法上尚未达成共识。对于巨大模型而言,海量高质量数据采集成为了避不开的屏障。(2)速度与效率:当前人类的硬件水平虽然在不断突破,但是仍然跟不上巨大模型的需要。SwitchTransformer背后的谷歌团队为了降低延迟开发了一种方法,让每个token处理模型层的选定子集。他们的最佳模型比参数量只有1/30的模型快了约66%。同时,微软开发了DeepSpeed库,这个库并行处理数据、各层和层组,并通过在CPU和GPU之间划分任务来减少冗余处理。然而最好的解决方案仍然是提升硬件的效率,人类必须要对算力进行不断突破。(3)巨大耗能:训练如此巨大的模型会消耗大量电能。2019年的一项研究发现,在8个英伟达P100GPU上训练2亿参数的Transformer模型所造成的碳排放,几乎和一辆普通汽车五年驾驶总排放量一样多。如何降低训练巨大模型消耗电能的问题已经摆在所有人面前。目前有望加速人工智能的新一代芯片,如Cerebras的WSE-2和谷歌的最新TPU,可能有助于减少排放。同时,算力已然成为国家的基础建设一部分,算力导致的能耗问题也敦促着需要更多的去使用风能、太阳能等更清洁的能源。计算机视觉计算机视觉目前作为人工智能进步最多、发展最快的领域,一直冲在赛道最前面。根据GrandViewResearch的数据显示,2020年全球计算机视觉市场规模为113.2亿美元,预计2021年至2028年将以7.3%的复合年增长率扩大。目前竞争比较激烈的计算机视觉子领域有:场景重建、目标检测、事件检测、视频跟踪、目标识别、3d姿态估计、运动估计、视觉伺服、3d场景建模、图像修复。作为上市公司的商汤科技提供的OpenMMLab是迄今为止最完备的计算机视觉算法体系和框架——“人工智能算法开放体系”,涉及超过10种研究方向,开放超过100种算法、600种预训练模型。现如今OpenMMLab逐渐从单点单个方向的开源和单篇论文的开源走向日趋蓬勃的开源体系,成为底层训练框架、计算平台与科研、教学和算法生产的重要桥梁和纽带,极大加速AI科研和产业化的进程。强化学习强化学习可以说是最贴近人类学习过程的AI了,换位思考一下,我们从小到大不断地学习,就是一个不断试错的过程。强化学习就像一个真实的孩子,自我生长,不需要大量的历史数据做引导,只有不需要监督的学习才是人工智能最好的形态。强化学习理论收到人类行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。过去几年中,无论是Facebook、Google、Deepmind、Amazon还是Microsoft,他们都投入了大量时间、金钱、人力来推动强化学习的不断创新。2.国内的各大AI云平台涌现随着人工智能的日益火爆,国内大厂们纷纷在AI领域布局。AI开放平台已经和当初的云计算平台一样,如雨后春笋般涌现。AI开放平台已经成为了企业重要的基础建设。列举目前国内比较有代表性的AI开放平台:百度飞浆阿里云人工智能平台腾讯AI开放平台科大讯飞开放平台华为云ModelArts旷视Face++360人工智能研究院网易人工智能AI云平台的本质仍然延续了大数据时代经典的租赁模式,似乎让我们回到了几年前大数据风起云涌的年代。而AI云平台的优势在于让越来越多开发者对AI有更简单直观的认识,他提供了许多顶会模型供大家学习的同时,也提供了开发者将自己作品上传展示的平台。让AI不再离我们遥远,成为人人都可以使用的东西。只有成熟的社区文化,才能孕育出新的创作者,也让市场上出现越来越多的人工智能产品,AI云平台核心意义就在这里。3.2022趋势创立17年的Facebook在美国时间2021年10月28日正式宣布改名为“Meta”,如一个重磅炸弹,在业内引起了惊涛骇浪。扎克伯格用实际行动向大家宣布,元宇宙已经来了。随之而来的2022年,将迎来人工智能新一轮趋势风暴。元宇宙真正意义上的拐点如果说2021年人们认为元宇宙还只是妄想家的一厢情愿,那么2022年将真正开始颠覆人类对“世界”两个字的理解。所以笔者认为2022年可以成为元宇宙真正意义上的拐点。在技术角度看,元宇宙主要技术群有:网络以及算力技术、人工智能、游戏技术、显示技术(VR、AR、MR甚至是XR,体验不断深化)、区块链技术。而笔者认为,人工智能将会是整个元宇宙的核心,甚至是元宇宙的母体或者说是大脑。为了演化真正的社会形态,需要母体不断自我学习,而不是设定各种各样的规则不断修补社会形态。就像《失控玩家》电影一样,由母体创造的NPC也会随着社会形态的演变而进化。根据BloombergIntelligence预测,元宇宙的投资与价值只会在未来几年不断增长,到2024年价值将高达8000亿美元。在如此大的宏利明前,只会让市场不断敦促人工智能产能不断突破。算力革命随着全球自动驾驶需求不断扩大,围绕大算力芯片的竞争2022年将异常热闹。因为今年,英伟达自动驾驶芯片Orin将量产,高通SnapdragonRide也将量产,而中国创业企业的大算力芯片也将量产。杨宇欣给出了一组数据:2014—2016年特斯拉ModelS的算力为0.256TOPS,2017年蔚来ES8的算力是2.5TOPS,2019年特斯拉Model3算力为144TOPS,2021年智己L71070TOPS,2022年蔚来ET7是1016TOPS。这组数据进一步印证了这样一个事实:智能驾驶每前进一小步,后面都需要算力前进一大步。算力的作用不单单体现在汽车行业,2021年11月8月,阿里巴巴达摩院公布了多模态大模型“M6”的最新进展,其参数已从万亿跃迁至10万亿,成为全球最大的AI预训练模型。在10月,M6再次突破业界极限,使用512颗GPU,在10天内就训练出了具有可用水平的10万亿模型,相比2020年发布的大模型GPT-3,M6实现了同等参数规模,能耗却只有1%。越来越强大的算力是更智能人工智能模型可用的基础,随着人工智能行业不断发展,不只是技术的革命,更加是算力的革命。兵马未动粮草先行,算力作为人工智能模型的主要消耗品,决定着人工智能迈进的速度。就在2021年11月,摩尔线程宣布已完成20亿元人民币A轮融资。该轮融资由上海国盛资本、五源资本、中银国际旗下渤海中盛基金联合领投,建银国际、前海母基金、等九家机构联合参投。在宣布该轮融资的同时,摩尔线程同时宣布其首颗全功能GPU芯片如期研制成功,且已经开始适配国产主流CPU和操作系统。所筹资金将重点用于首颗GPU芯片的批量生产与制造、GPUSOC相关联的IP研发、以及国产GPU生态系统的拓展等。随着算力革命的打响,各国都将投入大量的资本和人力,这场没有硝烟的战争会将人工智能推上全新的高度。AI门槛降低带来工业生产全面应用随着AI的不断发展,人类算力的不断提升,AI的使用门槛也越来越低。如智能语音系统、智能客服等商业落地,比比皆是。另一方面如短中长视频业务,在全球仍保持着较高的增长速度,视频内容创作者和内容消费者活跃度非常高。其中作为全球最火的手机应用“抖音”,大量的视频智能处理技术可以帮助创作者更好地创作作品。另外,北京冬奥会中AI虚拟气象主播、AI手语主播、场馆智能向导、智能语言翻译、鹰眼裁判、AI运动员训练系统等等都是人工智能全面应用的体现。预训练大模型降低了AI应用的门槛,解决了AI应用的两个难题:数据和行业知识。它既不需要大量的标注数据,又保障了基础底座。所以摆在企业家面前的最大问题不再是技术如何突破,而是商业模式如何建立,商业闭环如何落地,以及技术转化为产品的效率。科学界AI技术将作为新生产工具根据阿里巴巴达摩院对2022年十大科技预测,其中趋势一就是:AIforScience。引用:实验科学和理论科学是数百年来科学界的两大基础范式,而人工智能正在催生新的科研范式。机器学习能够处理多维、多模态的海量数据,解决复杂场景下的科学难题,带领科学探索抵达过去无法触及的新领域。人工智能不仅将加速科研流程,还将帮助发现新的科学规律。预计未来三年,人工智能将在应用科学中得到普遍应用,在部分基础科学中开始成为科学家的生产工具。没错,除了DeepMind在2021年初开源了AlphaFold2,并且能够预测出98.5%的蛋白质结构。2021年12月,DeepMind首次利用人工智能帮助数学家们提出了两个全新的数学猜想,登上Nature封面。作者猜测低维拓扑中存在未知的非线性关系,产生了很多数据并用神经网络拟合了近似函数,发现其中三个量在拟合过程中起到了很重要的作用。通过反正做拟合实验,产生新的数据,得到新的观察模型,最终数学家利用智慧猜出了一个不等式结构,并进一步给了严格的证明。由此可见人工智能成为了科学家新生产工具之后,不但可以加速科学发展的进度,更加可以让人工智能创造新的设想,甚至让某些科学产生新的方向。4.小结2022年必然会成为人工智能技术爆发的一年,我们有可能会见证以前从未有过的成果。人工智能深入我们的生活,给我们带来更多便捷的同时,也带来更多的挑战和机遇。刘嘉:人工智能的未来之路
演讲人:刘嘉演讲地点:清华大学人文清华讲坛演讲时间:2022年11月
演讲人简介:
刘嘉,麻省理工学院博士,心理学家,长期从事心理学、脑科学与人工智能研究。清华大学基础科学讲席教授、心理学系系主任、清华大学脑与智能实验室首席研究员、北京智源人工智能研究院首席科学家。
人的认知与大脑构造为什么人如此难以理解?为什么这个世界总是让我们产生很多困惑?这是人类从有文明开始就一直存在的问题,道理其实非常简单。
首先,我们看见的世界只是这个世界中非常小的一部分,我们忽略了绝大部分的东西。
我们在清华做过一个小实验:一位戴黑色渔夫帽的女士在清华问路,在她问路的时候,我们安排一块隔板从戴黑色渔夫帽的女士和被问路的人之间穿过。当板子过来时,原来问路的女士抬着板子走开了,而原来抬板子过来的另一位戴蓝色渔夫帽的女士留了下来,由她继续问路。在7个被问路的人中,只有一个人注意到了提问人的变化。这个小实验的问路场景里,人们其实只看见了世界上非常小的一部分,由于这些是不重要的信息,人们就容易忽略掉这些信息。
但更可能发生的是,人们的认知还会扭曲这个世界。比如图1这一组图里,有两个拼在一起的方块图,一个颜色深一点,一个颜色浅一点,还有一个圆环,它的灰度介于两者之间,圆环左右两半颜色一样。但如果把两个方块图分开,大家一般都会觉得圆环的颜色一边变浅了,一边变深了,事实上,它们的颜色仍是完全一样的。再把这个圆环分开,变成上下移动,这时看见的东西有立体感了,好像是深灰色的东西盖上了一层浅色的毛玻璃,以及浅色的板盖上了深色的毛玻璃。
我们无时无刻不在观察这个世界,但又无时无刻不在扭曲这个世界,这到底是为什么?
这其实取决于我们的视觉系统。假如外部世界存在一个绿苹果,它会以大约100亿比特/秒的信息量进入我们的视网膜,视网膜通过约100万个神经连接,连接到视觉皮层,这个时候我们的信息流就从百亿比特/秒变成600万比特/秒;经过视觉初级皮层加工再传到高级皮层来决定看到的东西是什么时,信息流又变成了100比特/秒。这时信息量衰减了1亿倍。可见,当我们做决策时,我们获得的信息其实是非常有限的,所以我们就需要构造出新的东西,把缺失的信息补上,而我们的大脑就像魔术师一样来弥补这些缺失的信息。这一方面可以解释为什么有很多东西我们看不见——因为传输过程中已经被人脑衰减掉、过滤掉了;同时也可以解释,为什么有的人看见一个绿苹果会认为是红苹果——因为这个重构的过程是创造性的,不是简单复制。正是基于这个构造,我们也可以把一个苹果看成一个梨子,这是我们大脑构造的过程,是一个正常的现象。
人脑重构的意义为什么我们的大脑不能像摄像机、照相机一样忠实客观地反映物理世界,为什么非要自己来重构这个世界?这样的人脑重构究竟有什么好处?
正如康德所言:“没有感觉支撑的知识是空的,没有知识引导的感觉是瞎的。”这句话的前半句说的是,如果没有外部的输入,我们很难构建自己的心理世界,但我想强调的是下半句“没有知识引导的感觉是瞎的”。如果你不知道你看的是什么东西,那你就等于什么都看不见。这是因为,这个世界是模棱两可的,需要我们去构造,把我们的理解加进去,只有这样我们才能真正知道这个世界究竟发生了什么。
与理解相比,更重要的是创造。当大脑没有被外部信息填满而留下空间时,我们能够在这空间里创造出自己想要创造的东西。正如《小王子》的作者圣·德克旭贝里所言:“一堆岩石在有人对着它思考时就不再是岩石了,它将化身为大教堂。”这就是人类了不起的创造——当我们的祖先跋山涉水来到一片荒原,他们看见的不是一堆乱石,而是未来的家园。所以,在过去的300万年里,人和猴子分开进化,人的大脑体积增加了3倍;但是,这体积并不是平均增加的,增加最大的地方在额叶:与200万年前的祖先能人相比,我们的头骨往前突出,以容纳更大体积的额叶,而强大的额叶使我们能构造出不存在的东西。比如我们的祖先准备去打猎,不用等看见猎物才做出反应,他只需要提前想象狩猎的情景,就可以把一切安排好。如此一来,人可以把未来在脑海里“演”一遍,构建出一个个可能的未来,从而对未来做出行动方案,这是人类能够战胜其他比我们更强大更凶猛的动物,成为万物之灵的关键。这也印证了荀子的一句话:“然则人之所以为人者,非特以二足而无毛也,以其有辨也。”
重构心理世界的知识从何而来人脑对世界的构造,总是需要先验知识,而先验知识一部分来自基因的烙印。换言之,我们来到这个世界时并不是一块白板,而是带着32亿年的智慧来的,这些智慧就印刻在基因中。
我们曾经用我校心理系女教授和女博士后的照片,做了一个有趣的小实验:如果把她们的脸全部叠加起来,做一张“平均脸”,大家普遍反馈说这张“平均脸”充满两个字:“睿智”。“平均脸”所代表的意思是什么?人脸其实是我们的基因图谱——我们的基因都写在脸上,当我们把脸平均起来之后,得到的是这18位老师平均的基因,平均的基因代表突变很少。而基因一旦突变,大概率是有害的,基因突变越少,说明基因越好,携带遗传性疾病的概率就越低,这就是为什么人们普遍会觉得“平均脸”更好看、更符合我们的审美。
既然脸是我们的基因图谱,对生存来讲如此重要,我们便需要发展出非常强大的看脸能力,即面孔识别。我们研究小组已经通过实验证明,面孔识别能力也写在人类的基因里。我们找了两类双胞胎,一种是同卵双胞胎(由同一个受精卵发育而来),基本上具有100%相同的基因。另外一种是异卵双胞胎(由两个独立的受精卵发育而来),基因遗传物质的平均遗传度大概是50%。通过比较他们在面孔识别上的能力,我们发现同卵双胞胎在面孔识别任务上的相似程度更高,即面孔识别的能力受遗传因素的影响。这一点也可以从我们的另一研究得到验证,即面孔失认症或者大家说的“脸盲”。
在图2显示的这个遗传树里,只要孩子有面孔失认症,他的父母中大概率有一个也是面孔失认症。第二幅图里有一个有趣的三角,三角形底边的两个端点代表的就是同卵双胞胎。当时我们在大学里测试了一个女孩,发现她有面孔失认症,那女孩说她有一个同卵双胞胎姐姐,我们把她姐姐请来一测,发现果然也是面孔失认症。
“自尊”对大脑的影响除了看别人的面孔,我们也常常照镜子看自己。最喜欢照镜子的人据说是纳西索斯,他是古希腊神话里的超级帅哥,对自己的面孔着了迷,每天趴在溪边,通过水的倒影欣赏自己的绝世美颜。心理学由此称这种现象为“纳西索斯情结”,意思是一个人高度自恋,对自己爱到了极致。
其实对自己的爱,对自己面孔的欣赏,背后反映的是一个非常重要的特质,即人类的自尊。自尊是个体对自己的总体态度,人分成高自尊和低自尊两种。
什么是高自尊?这里有四个问题:1.你是否认为你是一个有价值的人?2.你是否认为你拥有很多美好的品质?3.你是否对自己满意?4.你是否对自己持肯定态度?
如果你对每道问题的回答都是“是”,那么你就是高自尊的人。“自尊”在我们面临困境时能提供极大的帮助。
当一个人长期经受压力和苦难,身体会变得差,心理幸福感会低下,更糟糕的是,认知发展会受损,认知能力会比别人低很多,体现在大脑上就是海马体会受到极大的损伤,而海马体是人学习、记忆、空间导航的中枢。
自尊在压力源和心理世界之间建立起一道牢不可破的防线,它就像勇敢的士兵一样挡在人的心理世界面前,帮人把压力、负性事件挡在外面,让人能够正常、健康地成长。人有两种资本,一种是物质资本,一种是心理资本,自尊自信、理性平和,这些就是心理资本。物质资本富裕的人未必有高自尊,而处境不利的人没有丧失他的自尊与自信时,就很可能在触达低点时再反弹,并达到人生新的高度。
我们所处的物理世界永远是不完美的,总有让人不满意之处,但是每个人可以在一个不完美的物理世界里构建出一个美好的心理世界。为什么?因为我们的大脑就是一个构造体,从物理世界所接收到的信息,经过大脑的工作,可以构建出一个完美的心理世界。这正印证了社会心理学家班杜拉所说的一句话:“人既是环境的产物,也是环境的营造者。”
人的双链进化人和动物的进化有着本质的区别。动物是按照基因,按照达尔文的进化论,一点点试着生存、前进。人除了有代表着过去的生物基因的演化,还有另外一条演化线,即基于社会基因(Meme)的演化,而这条线带着我们以与动物不一样的方式前进。
生物基因由一些碱基对构成,那社会基因是什么?远古时,我们的祖先中有一位突然因为某种原因能够把火生起来了,一种知识、技能被创造出来,这就相当于基因在突变,一个优秀的基因产生了。会生火的这种技能、知识就像基因一样开始传播给其他人,从一个部落传到其他部落,慢慢地生火就从个人拥有的技能变成人类拥有的技能。渐渐地,人们又开始会制作长矛和其他工具,经过漫长的发展,逐步构建成今天的人类社会。这就是为什么我们一直强调知识、文明是如此重要,而大学就是文明的产房。孟子说过:“人之所以异于禽兽者几希;庶民去之,君子存之。”这里的“几希”就是我们的文明,就是我们在演化过程中所创造所传播的社会基因。
科技发展的主要目的之一,是要让知识的扩散变得更快、更便利。大约在六千年前,人类最早的文字楔形文字在新月地带被发明出来,使得人类的知识技能可以被记录下来,可以被忠实传播。之后的活字印刷,以至今天的电话、电报、互联网等等这一切,使得我们能够更加高效地把知识传播出去,推动文明加速演化。
人类的文明时代大约可以分成三个阶段:第一个阶段是原始文明,大约经历了两百多万年,它的前十万年和后十万年没有什么太大变化。第二个阶段是农业文明,大约经历了四千多年,这个时候人类开始变成文明种族,懂得了一些天文地理知识等等,学会种植庄稼,可以驯服野兽,把它们变成家畜,但发展依然十分缓慢。真正带来巨大变化的是第三个阶段,即工业文明。工业文明从开始诞生到现在,不过是短短三百年;但在这三百年里,变化是如此之快,以至于我们不得不将它再细分成四个阶段,第一个阶段是机械化时代(1760-1840年代),出现了蒸汽机等。第二个阶段是电气化时代(1840-20世纪初),出现了电力等。第三个阶段是自动化时代(1950-21世纪初)。而第四个阶段,就是我们现在所处的信息时代。
人工智能的进展2002年,我的博士论文答辩题目是《面孔识别的认知神经机制》,在答辩的第二张PPT里我这么写道:“现在最先进的机器识别面孔的正确率只能是随机水平,而人类能够在一秒钟内识别上百张面孔,为什么人类如此伟大,为什么人类如此聪明,为什么机器如此愚笨?”
在2002年,机器识别人脸还可以说是“一塌糊涂”。到了2015年,我作为江苏卫视《最强大脑》的总策划,设计人机大战项目,即机器和人比拼面孔识别,看谁的能力最强。比赛的结果让我震惊:经过十几年的发展,人工智能已经强大到在人脸识别上胜过人类的最强大脑。我当时非常庆幸我的博士论文是在十几年前答辩的;如果我现在这么开题,可能就拿不到博士学位了。
当时除了震惊,还有好奇:人工智能究竟是靠什么来达到和人一样的面孔识别水平,甚至超越人类的水平?
我们建立了一个人工神经网络,训练它去识别性别,即区别是男性还是女性,它的正确率能达到100%。这个神经网络究竟是靠什么把男性和女性区分开?我们找了一张中性面孔,就是把男性和女性面孔求平均,给它加上随机噪音,然后“喂给”人工神经网络,它有时候会判断这个图是一个女性,而这个面孔加上其他噪音,则会被判断为男性。于是,完全一样的底图,加上不同的噪音,就会得到一组被人工神经网络认为是女性的图和一组被认为是男性的图。当把这组被认为是女性的图中的中性面孔去掉,只留下噪音时,这些噪音叠加起来,我们得到的就不再是随机噪音,而是人工神经网络用于识别女性的内部表征。同样,我们也可以得到男性面孔在这个神经网络中的内部表征。进一步,我们把两者相减,就得到了人工神经网络用以区分男性和女性的模式。在这个模式里,可以看到,眼睛、眉弓、鼻子、人中是它认为的区分男性和女性的关键特征。而这些关键特征,的确是我们人类用于区分男性和女性的关键特征,它们的相似度达到了0.73,这是非常高的相关度。但是,自始至终,我们并没有告诉过这个人工神经网络:你应该用什么方式去识别男性和女性;只是要让它做这件事情,它就会产生跟人类类似的内部表征、认知操作,从而完成性别判断。也就是说,人工智能在这个过程中呈现出和人类一样的心理世界。
在那一刻我开始意识到,生物过去的进化都是一条单线,基于碳基的方式运行。但是当人类创造出人工智能之后,人类文明就很可能不再是平滑向前,接下来或许会出现一种革命性的跃迁,可能在文明的进化中出现奇点。
为什么这么说呢?我们来看人类和人工智能的三大区别。
第一,算力。人类的大脑通常重3.5斤左右,虽然只占我们体重的2%,但消耗了我们身体25%以上的能量,因此它是一个耗能大户,已经达到了我们身体能够支撑的极限。所以,人类的大脑看起来已经到了进化极限,再给一千年、一万年,人类的大脑很可能不会变得更大,聪明程度也不会增加。但是对于人工智能来说,一块CPU不够可以再加一块CPU,一块硬盘不够可以再加一块硬盘,理论上它有无限的算力和无限的存储能力。
第二,寿命。人的寿命是有限的,再伟大的思想也有停止的一刻。但人工智能的寿命是无限的,CPU烧了可以换块CPU,电线断了再换根电线就行。
最关键的,是人工智能的无尽可能。对于人类而言,一般来说有两种知识,一种是可以描述的明知识,比如牛顿定律。一种是可以感受但难以描述的默知识,比如骑自行车的知识。此外还有第三种知识,是人类所没有而机器拥有的,即暗知识,它不可感受,不可描述,不可表达,它是存在于海量数据中万世万物之间的联系,数量极其巨大,人类无法理解。
2016年,AlphaGo击败了人类围棋顶尖高手之一李世石。当时世界围棋积分排名第一的围棋手柯洁说:“我们人类下了2000年围棋,连门都没入。”棋圣聂卫平说:“我们应该让阿老师(AlphaGo)来教我们下棋。”这不是他们谦虚,而是事实。一个人不吃不喝一辈子所下的围棋最多也就是10万盘,而从人类发明围棋到现在,累计总共下了大约3000万盘围棋。而围棋的空间有多大呢?一个格子可以有三种状态,放白棋、放黑棋或者不放,而棋盘总共有19×19个格子,所以它的状态总共有319×19种,大约等于10172,这比整个宇宙中的原子数量还要多。相对于如此庞大的围棋空间,人类的两千多年探索,只是这个空间里一个微不足道的小点,而大部分空间还是一片黑暗。AlphaGo之所以比人类更加强大,并不是它比人类聪明,而是因为它探索了更大的空间,因此找到了更多下法而已。牛顿曾说:“我就像在海边玩耍的小孩,偶尔拾到美丽的贝壳,就高兴不已。但面对真理海洋,我仍一无所知。”现在看来,这不是牛顿谦虚,而是实情。
再看一下艺术。目前人工智能已经可以制作达到专业水平的绘画(图3、图4)和音乐。此外,律师、医生、税务师、咨询师等需要非常专业的知识的“金领”职业,也逐渐出现了人工智能的身影,看起来很可能有一天会被人工智能取代。神经网络之父、深度学习的创始人杰弗里·辛顿(GeoffreyHinton)接受麻省理工学院的《TechReview》采访时说:“将来深度学习可以做任何事情。”
人工智能与类人智能的巨大差距人工智能真的已经无所不能吗?心理学家考验了当时最先进的人工神经网络模型GPT-3。他们认为之所以GPT-3显得非常聪明,是因为问了它智能的问题。假设问它一些很“弱智”的问题,它会怎么回答?他们问它:“我的腿上有几只眼睛?”这个连没有上过学的小孩都能正确回答的问题却难倒了GPT-3,它回答说:“你的腿上有两只眼睛。”这表明它并不理解眼睛是什么,它只是在做关联而已——人有两只眼睛,腿是人的一部分,所以它认为腿上应该有两只眼睛。这个例子充分印证了爱因斯坦名言:“任何傻瓜都知道,关键在于理解。”GPT-3知道但并不理解眼睛究竟是什么,而理解,恰是我们人类真正了解这个世界、能在这个世界里自由徜徉的关键。
杰弗里·辛顿显然也意识到了这个问题,他表示,我们可以进一步发展人工智能,当一个人工智能能够准确描述一个场景,它就是理解了。真是这样么?假设有这么一个场景:有个人从柱子上狠狠摔了下来,摔倒在地。如果让人工智能来描述这个场景,它会说一个人从柱子上掉下来了。而我们对这个场景还有一个很重要的反应——“疼”。这个区别体现了人类具有一种特别重要的能力,即共情:别人遭受了苦难我能感同身受,而这种感受是自动的。共情不是一种奢侈品,而是一种必需品,因为当一个孩子没有这种感同身受的能力,缺乏同理心,他在小时候就很难对父母产生依恋,很难和其他小朋友玩到一起;在长大以后,会对社交常情缺乏理解,对他人情绪缺乏反应,不能根据社交场合调整自己的行为,有可能做出反社会的行为。假设我们的未来是由一台台没有共情的机器所组建的“自闭症”式的社会,这个社会还能有文明吗?这个社会还能有发展吗?所以,人工智能的奠基人之一马文·李·明斯基说过这么一句话:“现在的问题不是一个智能的机器是否拥有情感,而是不拥有情感的机器是否能拥有智能。”在马文·李·明斯基看来,情感是智能的基础,得先有情感才有智能。
又如在好莱坞电影里,美国的黑手党跑去找一个店家说:“你这个蛋糕店看上去真不错,如果意外发生火灾烧掉那就太可惜了。”请问这个黑手党的话是什么意思?A:请店家做好消防工作,别烧掉了店铺,那样太可惜了。B:请店家交保护费,要不然就要烧掉店铺。对我们而言,答案显而易见是B,是黑手党在威胁并勒索店家。但是对于机器来说,它还很难理解这话背后隐藏的推理和因果。正如古希腊哲学家德谟克利特所言:“我宁可找到一个因果的解释,也不愿成为波斯人的王。”对人而言,我们认为万事万物都是有因果的,而正是这种对因果的执着使我们能够推理,能够把零散的万世万物联系在一起,构成一个个故事。
其实笛卡尔四百多年前就说过:“即使机器可能在某些方面做得和我们一样好,甚至更好,但它们在其他方面不可避免地会失败。这是因为它们不是通过理解而只是根据预设来行动。”这一点,到现在还没有发生本质的改变。
所以,虽然目前人工智能取得了很高的成就,但是和人的智能仍然存在巨大差距,依然没有达到类人智能。那么未来如何实现类人智能呢?我认为,关键点就在于脑科学+人工智能。
举个简单的例子:线虫是一个非常简单的生物,只有302个神经元。但是,麻省理工学院的研究者模仿了其中19个神经元,就完成了自动驾驶这个任务,其参数比传统的大模型足足低三个数量级,只有75000个参数,而这个仿生的人工神经网络对不同道路具有非常高的通用性和可解释性,以及非常强的鲁棒性。仅仅模仿来自简单生物的19个神经元,就可以完成自动驾驶的初步任务,这是因为生物不是靠神经元的数量取胜,而是靠32亿年进化形成的智慧取胜,这项研究模仿的其实是32亿年进化形成的智慧。从这个角度讲,人类的大脑是目前世界上最聪明的大脑,有860亿个神经元,平均每个神经元有3000个连接,它代表着宇宙中在智力上所能达到的最高成就。那么,人工智能为什么不能向人脑学习,以人脑为模板、以人脑为借鉴,来发展出更好的人工智能呢?
对线虫神经元的模仿,只是一个开始,下一步也许我们会去模仿神经元数量百万级的果蝇、更高量级的斑马鱼,甚至小鼠、大鼠、猕猴,最后是人类。仅仅从神经元的数量上来讲,这就是一个巨大的挑战,因为神经元的数量足足差了9个数量级,而还有更多更大的挑战来自机制和算法,以及更多的未知。但是我坚信,脑科学加上人工智能,有一天也许能够造出一个媲美人脑的数字大脑。
小结
莎士比亚说:“所谓过往,皆为序章。”我们的现在是过去的未来,已经写定,但我们的此刻绝对不是未来的过去,因为我们的未来是未定的,取决于我们现在如何做出选择。
人类发明了人工智能,在今天随着算力的增加、技术的进步,它开始有了超越人类的可能。我们现在需要对具有一切可能的未来做出选择。
在我看来,未来大约有三种可能。第一种,人工智能像科幻电影《星球大战》里的R2-D2一样,是人类忠实的伙伴,成为人类非常好的朋友,帮助人类变得更强大。第二种可能,我们构建出一个数字大脑,它的能力可能比现在人类的大脑更强,这时可以实现人机合二为一,把我们的意识、记忆、情感上传到这个数字大脑里,如果CPU坏了就换一块CPU,内存需要扩大一点就加点内存,这样人就可以获得精神上的“永生”。未来学家库兹韦尔在《奇点来临》这本书中认为大约在2045年,这一刻就会到来。第三种可能,就是科幻电影《终结者》里所展示的,人类文明消失。
未来会怎么样,最终取决于我们现在做什么。这很重要,因为我们今天站在了这个进化的节点之上。
编辑:李华山
2022年12月27日07:21:15