ChatGPT敲开了通用人工智能的大门了吗—新闻—科学网专用人工智能与通用人工智能的关系

发表时间：2023-07-21 22:35:01

ChatGPT敲开了通用人工智能的大门了吗—新闻—科学网

学界热议：ChatGPT敲开了通用人工智能的大门了吗？

连日来，一路“狂飙”的ChatGPT持续引发着“话题地震”。

作为由OpenAI训练的对话式大规模语言模型，ChatGPT以对话的方式与人进行交互。重点在于，它的回答之智能、之流畅令人意外。据媒体报道，ChatGPT不仅能在短短几秒内响应人们的问题需求，它还通过了美国部分高校的法律、医学考试，顺利通过了谷歌18万美元岗位年薪的软件工程师入职测试。

不仅如此，ChatGPT还会承认错误，质疑不正确的前提并拒绝不恰当的请求。而当它不知道自己在说什么时，它会承认不知道。

ChatGPT是否“过于”智能了？或者说，照此进化下去，人们会逐渐实现通用人工智能（AGI）吗？这也是计算机学界最近正热议的话题。

ChatGPT的三大技术突破

试用过ChatGPT的都知道，ChatGPT可以在人机对话中回答连续的问题、生成文本摘要、翻译文档、对信息分类、写代码以及撰写人们要求的几乎任何类型的书面材料，包括商业计划书、活动策划、诗歌、笑话、计算机代码和电影剧本。ChatGPT会在一两秒时间内生成这些内容，用户无须等待，而且它生成的很多内容看上去都还不错。

“ChatGPT是目前为止最为强大的通用人机对话系统。”2月14日，在接受《中国科学报》采访时，中科院自动化研究所研究员、“紫东太初”大模型研究中心常务副主任王金桥不无赞叹地说：“它也是暨打败人类围棋冠军的AlphaGo之后，人工智能又一重要突破，标志着以大模型为核心的智能计算范式的确立。”

能有如此高的评价，王金桥认为，这背后主要是基于三大技术突破：千亿级参数大模型、多任务统一编码、人类反馈的强化学习。

他解释说，ChatGPT无所不知，得益于大规模预训练语言模型GPT3.5的支持——GPT3.5拥有千亿级参数，在训练时使用了海量人类在互联网上所编辑生成的多种类文本数据集，因此可以对世界已有知识进行编码；ChatGPT一专多能，在于其实现了多任务统一编码——传统人工智能只能处理单一任务（如语音识别和人脸识别），但ChatGPT不同，通过多任务统一编码，它可以像人一样，一个模型就能做很多事情；ChatGPT对答如流，非常重要的技术点就是引入了人类反馈的强化学习（RLHF）——OpenAI的开发团队通过RLHF不断对ChatGPT模型进行微调，就使得多轮对话更加流畅，能更好地捕获用户意图，让人觉得ChatGPT的系统语言像人一样。

正是基于这三大技术突破，ChatGPT得以像人一样对于任意输入的问题进行非常流畅性的回答，而且拥有问答、对话、文档概括、文本创作等多种能力。

一条通往AGI的路径？

ChatGPT的闪光，不免让人们对通用人工智能浮想联翩。

“从业10年有余，第一次觉得AGI不再是个‘时髦词’了。”2022年12月，ChatGPT甫一面世，浙江大学计算机学院青年研究员赵俊博就在个人微信朋友圈这样写道，“真没想到RLHF能做到这种程度。”

他解释说，ChatGPT模型展现出来的能力让他感到震惊：“它的推理能力、归纳能力、在语言作为媒介展现出来的对世界常识的认知、多轮对话能力等，值得肯定。”他认为，从技术上来讲，ChatGPT已经“不再是单纯的记忆大规模文本了，这一点非常可怕”。

另一位青年计算机科学家，清华大学软件工程博士、北京智源人工智能研究院视觉方向研究员曹越，则在分析了ChatGPT背后存在“大规模语言模型+（人类反馈的）强化学习”的“循环”（loop）之后，“深切地感受到好像真的找到了一条通往AGI的路径了”。

“重读GPT3时最让我惊艳的是（ChatGPT的）上下文学习居然激活了简单的逻辑和加减法，而且看起来指令调优（人类反馈的强化学习）和‘思维链’进一步强化了它在这方面的能力。”曹越谈到，当然现在模型在这方面的能力依然比较初级，但他觉得从0到1是最难的：“之前没有模型看到有这方面能力的机会，而现在有了。”

从ChatGPT联想到AGI，曹越还提出自己另一个角度的思考。

“此前我自己浅薄的理解，AI为什么无法向AGI前进？就源于强化学习的反馈（reward）好像只能从现实世界中给予，由此这个reward几乎无法低成本、大量地被获取。现如今大规模语言模型通过‘预训练+RLHF’好像提供了一条路径，相当于是一个有基础语言理解能力的模型来进一步拟合人在语言生成方面的表现，同时模型还拥有基础的逻辑能力，并且还在不断进化，这也是我为什么觉得好像真的找到了通往AGI的路径的一个原因。”曹越说。

王金桥更是向《中国科学报》直言，ChatGPT的出现，被认为是AI实现通用人工智能的重要标志，“打开了通用人工智能的大门”。

他告诉记者，2012年之前，AI更多是实现了感知智能的突破；2012~2022年这十年里，AI在认知智能上实现了突破，逐渐有了加工、知识推理、总结等类人的能力；而ChatGPT的出现，则被认为是“智慧的涌现”，因为ChatGPT证明了，AI在对世界知识进行编码后可以把知识之间的关系自动关联起来。

“这是语言模型的一个巨大突破，也是强人工智能的影子。”王金桥说。

他认为，ChatGPT的成功，代表着增大模型和数据规模是突破现在AI技术应用瓶颈行之有效的方法，同时也标志着从以专用小模型训练为主的“手工作坊时代”到以通用大模型预训练为主的“工业化时代”的AI研究范式转变，敲开了通用人工智能的大门。

通用人工智能，道阻且长

不过，论及ChatGPT是否指明了前往通用人工智能的路径，学术界显然有不同看法。

有观点指出，ChatGPT的学习能力非常强大，但它再强大也没有摆脱“大数据、小任务”的大样本被动学习模式，也就是说，当人们向ChatGPT输入一个个问题时，这对其而言仅是一个“小任务”，而完成这个任务是凭借巨大的数据训练而生成的。观点认为，它并没有任何的主动思考、反思和判断，只是根据程序规则在飞速计算下完成这种“任务”。

从这个角度，ChatGPT也是在“机械地执行任务”，以至于它时不时闹出一些“一本正经地胡说八道”的笑话。比如在“麻辣螺丝钉怎么做？”等问题下，ChatGPT就翻了车。

“一本正经胡说八道”反映的是文本生成系统的可控性问题。赵俊博表示，根据目前的信息来看，ChatGPT还没有解决这个问题。

华为公司人工智能高级研究员谢凌曦就持有类似看法，他认为当前的智能体还没有学会复杂逻辑，也就不太可能推理出数据库里没有的知识。因此，他对ChatGPT找到了通往AGI的道路的说法“持保留意见”。

“我更加倾向于认为ChatGPT的行为像是一个信息收集和归纳的AI，在逻辑层面比较薄弱。”谢凌曦说，在逻辑更复杂、甚至需要多轮推理的情况下，当前（即使使用了RLHF）的训练范式，对于数据的利用效率还是太低，以至于AI难以完成稍微复杂的推理任务。

“RLHF确实打开了新的路线。但我隐约感觉，这种人在回路的方式，上限不会太高。”谢凌曦说，他觉得ChatGPT一些结果总给人一种假象，“感觉是AI学到了一种比较讨巧的方法，能够让这些AI训练师‘简单地满意’”。换句话说，如果人们不太去深究的话，AI的回答才“看起来还不错”。

“当然，ChatGPT已经比之前许多的AI都要好了。我们只是需要再次理解，AGI是多么困难的任务，道阻且长！”谢凌曦说道。

多模态感知的AI，有望更“类人”

从更高的技术角度，谢凌曦作出了进一步分析。

他认为，自然语言处理（NLP）领域的发展，主要是抓住了自然语言的特征空间相对简单的性质。因而，在大数据的加持下，通过互联网收集到的数据覆盖了整个空间足够大的比例（如训练数据和测试数据的整体分布足够接近），能使算法跨越“过拟合会产生危害”这条线。也即，即使模型就是在过拟合训练数据，也完全看不出问题。但这种模式套在其他领域就不一定行得通，比如视觉的特征空间要复杂得多，不仅有无限细粒度可划分的语义概念，还有远超NLP的“领域鸿沟”（domaingap）——至少在短期内，计算机视觉的发展很难复刻诸如ChatGPT的（AI在NLP的）成功方式。

王金桥也承认，虽然ChatGPT是目前为止最为强大的通用人机对话系统，但它也是有局限的。

“ChatGPT还只是一个单纯的语言文本模型，但现实世界中不只有文本，还有声音、图片等多种模态。”王金桥说，因此我们认为，多模态的感知理解是更加重要的一个趋势，也更有望能实现类人的智能融合。

这也是王金桥所在的研究团队将攻关重心放在多模态大模型领域的重要原因。他介绍，2021年，中科院自动化所推出了全球首个千亿参数多模态大模型“紫东太初”，就致力于实现图像、文本、语音三个模态数据之间的“统一表示”与“相互生成”，使AI的理解和生成能力更接近人类。

“我们基于‘紫东太初’开发的虚拟人‘小初’也是一个对话系统，同样拥有问答、对话、文档概括、文本创作等多种能力，但跟ChatGPT不太一样，我们的系统更多是对图像、文本、语音三个模态的融合交互，使之能更好地完成相应任务。”王金桥说，未来他们也计划在此基础上加入人类反馈的强化学习，使它更好地捕获人的意图。

“这也是我们下一步的重要工作。”王金桥说。

通用人工智能离我们还有多远

编辑导语：在以前，人工智能是一个科幻的话题，但在今天，人工智能已经不再那么遥远。当下的一些场景中，我们都能寻觅到人工智能的影子，但目前的人工智能还存在着很多问题，它并不能真正代替人，所以离真正意义上的通用人工智能还很远。本文对人工智能展开探讨，寻觅通用人工智能的未来。

人工智能曾经是一个颇为科幻的话题。有人担心人工智能会取代人类，甚至会反人类。然而几年下来，我们发现人工智能并没有我们想象的那样智能。

“问题”究竟出在哪儿？“什么是人？”“什么是智能？”一、认识不到现实和理想的差距就会导致“泡沫”

严格来说，人工智能的主流技术并不新，它经过对传统技术的反复迭代而来。

关于人工智能的发展现状，目前有“乐观论”“悲观论”“泡沫论”三种论调。

我经常会听到各种各样的误解，第一个误解就是认为人工智能是个新东西，是这几年冒出来的。事实上，人工智能（artificialintelligence）这个词正式变成公认的学科名词是在1956年美国的达特茅斯会议上。显然，这是距今已经挺久远的事情了。

至于现在被谈论很多的深度学习技能，前身就是人工神经网络（artificialneuralnetwork）。这个概念在上世纪60年代就被学界注意到了。

人工智能的奠基人之一阿兰·图灵生前也搞过一些粗浅的人工神经网络研究。这样算的话，这个技术至少可以追溯到上世纪40年代。

所以，严格来说，人工智能的主流技术并不新，它经过对传统技术的反复迭代而来。

1.乐观论

这种论调描绘出了一个乌托邦般的场景：当你回到家中，所有的设备都能够通过全新的网络技术和物联网与你心有灵犀；汽车是不用驾驶的，你上了车以后，什么事都不用干，就可以把你带到目的地；沿途，你还可以和你的汽车交谈，就好像它是你的人类司机那样。

2.悲观论

悲观论者更多是站在那些可能会丢掉工作的人的立场上，认为人工智能实在太厉害，会取代很多人的工作。到时，如果社会暂时又无法提供更多的新岗位，这怎么办？

3.泡沫论

我的观点是泡沫论。“泡沫”不是指人工智能的未来一片黯淡，而是说在短期内，这项技术的发展还无法支撑得起很多人的梦想。

理想很丰满，技术目前还很“骨感”。如果你意识不到理想和现实之间的差距，就会导致泡沫。假如因为对人工智能持有乐观态度而到市场上去融资，就更需审慎考虑。

历史上确实有成功案例，比如IBM360计算机项目。

它的成功使计算机从过去那种非常笨重、只有高级科研单位才能买得起的状态，慢慢地变成办公室可以用的计算机，为个人PC的出现打下了基础。但失败的案例也很多。如果关于人工智能的融资计划都把未来描述得很美好，把饼画得特别大，最后也很可能会有问题。

我个人对人工智能未来发展的基本判断是——

人工智能对我们生活的改变不是全局性的、颠覆性的，而是局部的改进。

比如，在在线教育、养老陪护等领域，人工智能能促进一些变化，带来一些商机。但有些项目，比如自动驾驶，就很可能存在一些应予以审慎对待的泡沫。

我主张的“泡沫论”是建立在一些基本概念的界定上，比如“专用人工智能”和“通用人工智能”。

二、使用传统方法解决问题的能力下降是危险的

李世石应该会泡面、会开车，在和AlphaGo下完棋以后他还能够接受媒体采访、谈谈自己的感受。但是,AlphaGo肯定不会开车，更不能在和李世石下完棋以后和人类、和媒体交流自己的所思所想。

现在的人工智能都是基于大数据的，它对小概率和偶然性事件缺乏应对机制。当它面对这个充满变动的世界时，就不知道该如何应对了。

如何区别“专用人工智能”和“通用人工智能”？

专用人工智能就是只能干一件事或两件事的人工智能，通用人工智能是指什么事都能干一些的人工智能。

举个例子来说，李世石是一位棋手，AlphaGo是一个围棋程序。如果我们把李世石看成一个智能系统的话，他就是通用智能系统。

因为他除了下棋，还能做许多其他事情，比如他应该会泡面、会开车，在和AlphaGo下完棋以后他还能够接受媒体采访、谈谈自己的感受。

但是，AlphaGo肯定不会开车，更不能在和李世石下完棋以后和人类、和媒体交流自己的所思所想。经过这样的对比，我们能明显看出专用人工智能的局限。

我们人类的特点是，在一件事上可能是专家，其他事也能干，只是干得没那么好。但是，专用人工智能就只能干专门的事情，其他的事情基本无法兼顾。仅从这一点来讲，专用人工智能和能力全面的通用人工智能之间的区别还是很大的。

我们现在看到的人工智能都是专用的，它们的制作思路都是按照专用人工智能的思路来做的，比如人脸识别和语音识别。

当前，人工智能通过卷积神经网络技术的进步，已经获得了一项重要能力，即可以同时通过人脸和声音来识别他人。但对于人工智能来说，基于神经网络的图像识别系统和语音识别系统是两回事。

现在很多人对人工智能的想象，是建立在“通用人工智能”之上的。

很多人喜欢看美剧，发现里面出现的一些机器人已经特别厉害。有的机器人不仅拥有人类的特征，还开始反抗人类。有人看了这样的故事以后就会展开联想：如果我们和这样的机器人一起生活，会受到怎样的威胁？

自然而然地，很多人对人工智能的思考就建立在了这类科幻影视作品的基础上。而科幻影视作品受众广、不需要具备太多科学素养就能看明白，很有传播力和影响力。

我有一个观点：软科幻看多了，要看一些硬科幻。硬科幻距离今天的科学比较近，对科学知识的运用更严谨。相比软科幻，硬科幻更适合起科普的作用，能够增强普通人对现实世界的思考能力和把握能力。

现在的人工智能都是基于大数据的，它对小概率和偶然性事件缺乏应对机制。当它面对这个充满变动的世界（比如新型病毒、未知规模的洪水等）时，就不知道该如何应对了。

所以，我担心的问题不是人工智能有了人的意识以后会与人对抗，而是人类过多依赖人工智能以后，头脑反而会变简单。

不要以为有了现代化的先进工具以后就可以放弃传统。举例来说。假设现在有两支军队对峙，双方都有能力使用最新的网络信息技术，但只要有一方攻破了对方的网络防线，另一方的信息基础设施就沦陷了。到时，只能转而采用最原始的办法（比如信鸽、鸡毛信等），来传递信息。

对人工智能充满合理想象本身并没有错，但如果我们将人工智能的能力想象得过于强大，同时又疏于保持用传统方法、传统智慧解决问题的能力，这就可能会将人类置于某种尴尬的境地。

三、为什么现在还发展不出通用人工智能

通用人工智能系统的特点就是通用，既然是通用，就要处理全局性的问题。什么是全局性？就是拥有在不同的理论体系之间进行抉择的能力。

深度学习基于的神经网络技术用强大的机器海量计算掩盖了方法本身的“笨”。对于深度学习来说，如果有现成的数据会非常好办，但如果没有优质数据，靠它自己搜集数据就很成问题。

现在的“深度学习”技术，有望在短期内，达到通用人工智能的程度吗？

人们曾经想象能够有一种机器，不需要任何外界输入能量或者只需要一个初始能量，就可以不停地自动运动。在哲学家看来，这个设想经不起严格推敲，无法从根本上立得住。在我看来，通用人工智能大概也只能停留在设想阶段。

通用人工智能系统的特点是通用，就是拥有在不同的理论体系之间进行抉择的能力。不同的诉求之间往往存在冲突，而人类有能力在各种冲突之间想办法，找到一个可以平衡各种矛盾的中庸点。

举个大家比较好理解的例子。有一位家政员到雇主家里做事。如果雇主是一位知识分子，家里书特别多，他就可能会要求家政员尽量把书房打扫干净，但不能干净到书都找不到了。

家里书多的人都知道，书的易取性和整洁性往往是相互矛盾的。书收起来，家里固然更干净整洁了，但如果几本书同时在看，堆起来以后再找、再取就很耗费时间。

这时，究竟是追求整洁还是易取？这里面就有个平衡点。这个平衡点的抵达需要家政员和雇主之间长时间的磨合，却很难通过程序来设置。

任何一个综合系统都要具备处理各种复杂甚至突发情况的能力。其中有些情况甚至是非常极端、偶发的。比如，一辆自动驾驶汽车在道路上行驶。道路的左侧有一个路人在行走，道路的右侧有五个路人在行走，万一出现车速太快来不及刹车的情况，到时该往哪边拐？假设这个程序突然得到消息，左边的路人是我们国家一位非常重要的专家，它该如何选择？

很多人第一直觉会觉得专家更重要，但转念一想，每个人类个体的生命都是平等的。遇到这样的问题，人类会痛苦抉择、反复取舍。

换作是机器，问题就麻烦了。我们都知道，人工智能是基于一系列规则设置的，规则背后就是各种逻辑原则。一旦情况过于特殊或复杂，机器内部基于不同逻辑规则设置的程序之间就会打架。

我再举个例子。假设现在有一位外国小伙子到少林寺学武术，语言不通，怎么办？有个办法，那就是师父做一个动作，小伙子跟着做；如果他做对了，师父就微笑，做错了，师父就棒喝。通过这种方式，小伙子被棒喝以后，就知道自己做错了。但具体到底哪一点做得不对，如果师父不明示、不详解，他就需要猜、需要不断试错。这时语言的好处就很明显。如果彼此能够通晓对方的语言，师傅就能把包括武术规则在内的一整套内容都传授给他，帮助他理解，然后再由学生自己转化为行动。深度学习基于神经元网络的运作产生。神经元网络的运作，就类似于前面所说的那种比较笨的教学方法。

人类犯错以后的反省是基于道理和规则的。但系统不是，它遇到障碍以后的应对办法是调整各种参数，试错以后发现不对就再猜。它是通过大量的猜，慢慢地把事情往对的方向引。它的优势在于，可以在很短的时间里完成人类不可能完成的巨量猜测。

深度学习基于的神经网络技术就是用强大的机器海量计算掩盖了方法本身的“笨”。但问题是，对于深度学习来说，如果有现成的数据会非常好办，如果没有优质数据，靠它自己搜集数据就很成问题。

通用人工智能如果要处理全局性问题，需要搜集的数据就更复杂了。

目前的深度学习机制，其根本问题就是缺乏跨领域学习的能力。这正是人工智能无法通用化、全局化的根本所在。

在我们的日常生活中，不同的系统有不同的运作方式。国际象棋有国际象棋的下法，围棋有围棋的下法。人可以适应变化，要人工智能去适应这一点却非常难。

很多人会问，可不可以把各种专用的人工智能整合为一套通用的人工智能？

其中又有一个问题——协同。这就和企业运筹帷幄一样，需要各个团队、板块的协同合作，需要有一个能力全面的人来领导，而人工智能并不具备总体的调度、配置能力。

为了研究人工智能和人类智能还差在哪儿，一些专家提出了所谓的“卡特尔—霍恩—卡罗尔”三层智力模型。他们把通用智能分解成很多部分，比如流体智力、晶体智力、量化推理、读写能力、短期记忆、长期记忆、视觉处理和听觉处理等。

量化推理无非就是算术，读写能力就是你能不能看懂文章、读懂要点。晶体智力就好比老师现在给你一道题目，告诉你解法以后，看你能不能把做题的思路迁移到新的题目上。流体智力要求更高，相当大程度上，它强调的是一个灵活调用各种智识能力的状态。

至少在目前，人工智能不是根据人类智识能力的发展方向来发展的。长此以往，它的“拟人性”就很成问题，它离真正意义上的通用人工智能就还很远。

本文由@KING原创发布于人人都是产品经理，未经作者许可，禁止转载。

题图来自Unsplash，基于CC0协议。

ChatGPT敲开了通用人工智能的大门了吗—新闻—科学网 专用人工智能与通用人工智能的关系