什么是通用人工智能
在强度(strength)中心上,可以很容易看到过去20年的成果,并认识到我们已经造出了一些极其强大的程序。深蓝(DeepBlue)在国际象棋中击败了GarryKasparov;沃森(Watson)击败了Jeopardy的常胜冠军;AlphaGo击败了可以说是世界上最好的围棋棋手李世石。
但所有这些成功都是有限的。深蓝、沃森和AlphaGo都是高度专业化的、目的单一的机器,只能在一件事上做得很好。深蓝和沃森不能下围棋,AlphaGo不能下国际象棋或参加Jeopardy,甚至最基本的水平都不行。它们的智能范围非常狭窄,也不能泛化。
沃森已经在医疗诊断等应用中取得了很多成果,但它基本上仍然只是一个必须为特定领域专门调制的问答机器。深蓝拥有大量关于国际象棋策略的专门知识和百科全书式的开放知识。AlphaGo是用更通用的架构构建的,但其代码中仍然有很多人工编码的知识。我不是轻视或低估他们的成就,但认识到他们还没有做成的事也是很重要的。
我们还没能创造出可以解决多种多样不同类型问题的人工通用智能(artificialgeneralintelligence)。我们还没有听一两年人类对话的录音就能自己说话的机器。尽管AlphaGo通过分析数千局比赛然后又进行更多的自我对弈而「学会」了下围棋,但这同样的程序却不能用来掌握国际象棋。
同样的一般方法呢?也许可以吧。但我们目前最好的成就离真正的通用智能还很远——真正的通用智能能灵活地无监督地学习,或能足够灵活地选择自己想要学习的内容,不管那是玩棋盘游戏,还是设计PC板。
迈向通用人工智能
我们如何从狭窄的、特定领域的智能迈向更通用的智能呢?这里说的「通用智能」并不一定意味着人类智能,但我们确实想要机器能在没有编码特定领域知识的情况下解决不同种类的问题。我们希望机器能做出人类的判断和决策。
这并不一定意味着机器将实现创造力、直觉或本能等没有数字类比的概念。通用智能将具备处理多种类型的任务和适应未曾预料的情形的能力。一个通用智能无疑可以实现「正义」和「公平」这样的概念:我们已经在谈论人工智能对法律系统的影响了。
我们先以自动驾驶汽车来证明我们所面临的问题。要实现自动驾驶,汽车需要将模式识别和其它能力整合到一起,包括推理、规划和记忆。它需要识别模式,这样才能对障碍物和街道标志做出反应;它需要推理,这样才能理解交通规则和解决像避开障碍物等任务;它需要规划以获得从当前位置到目标位置的路径,并同时考虑到交通状况等其它模式。
它需要不断重复做这些事,不断更新它的解决方案。但是,即使一辆自动驾驶汽车整合了所有这些人工智能,它也不具备我们所期望的通用智能应该具备的灵活性。你不会期待一辆自动驾驶汽车能和你交谈或布置你的花园。将从一个领域学习到的知识应用到另一个领域的迁移学习是非常困难的。
你也许可以重新加工其中许多软件组件,但那只能指出缺少了什么:我们当前的人工智能能为特定问题提供范围狭窄的解决方案,它们并不是通用的问题解决者。你可以将范围狭窄的人工智能叠加到一起(一辆车可以带有能谈论去哪里、进行餐厅推荐和与你下棋让你不会感觉无聊的Bot),但狭窄人工智能的叠加永远不能得到一个通用人工智能。通用人工智能的关键不是有多少种能力,而是这些能力的整合。
尽管神经网络这样的方法原本是为模拟人脑过程而开发的,但许多人工智能计划已经放弃了模仿生物大脑的概念。我们不知道大脑的工作方式;神经网络计算是非常有用的,但它们并没有模拟人类的思维。
在《ArtificialIntelligence:AModernApproach》一书中,PeterNorvig和StuartRussell写道:“当莱特兄弟和其他人停止模仿鸟类并开始学习空气动力学时,对『人工飞行』的追求才获得成功。”
类似地,要取得成功,人工智能不需要将重点放到模仿大脑的生物过程上,而应该尝试理解大脑所处理的问题。可以合理地估计,人类使用了任意数量的技术进行学习,而不管生物学层面上可能会发生什么。这可能对通用人工智能来说也是一样:它将使用模式匹配(类似AlphaGo),它将使用基于规则的系统(类似沃森),它将使用穷举搜索树(类似深蓝)。
这些技术没有一种能与人类智能直接对应。人类比任何计算机都做得更好的是构建他们的世界的模型,并根据这些模型采取行动。
超越通用智能后的下一步是超智能(super-intelligence或hyper-intelligence)。目前我们还不清楚如何区分通用人工智能和超智能。我们期望超智能系统会具备创造力和直觉等性质吗?鉴于我们对人类的创造力还不甚理解,思考机器的创造力就更为困难了。
围棋专家称AlphaGo的一些落子是“创造性的”;但它们源自与其它所有落子完全一样的过程和模式,而并非以一种新的视角看待这项游戏。同样算法的重复应用可能会产生让人类感到惊讶或意外的结果,但仅仅的惊讶并不是我们所说的“创造力”。
将超智能看作一个规模问题会更容易一点。如果我们可以创造「通用智能」,可以很容易估计出它将很快就比人类强大成千上万倍。或者,更准确地说,通用人工智能要么将显著慢于人类思维,难以通过硬件或软件加速;要么就将通过大规模并行和硬件改进而获得快速提速。
我们将从数千个内核GPU扩展到数千个芯片上的数以万亿计的内核,其数据流来自数十亿的传感器。在第一种情况中,当加速变缓时,通用智能可能不会那么有趣(尽管它将成为研究者的一次伟大旅程)。在第二种情况中,其增速的斜坡将会非常陡峭、非常快。
训练还是不训练
AlphaGo的开发者声称使用了远比深蓝更通用的算法来训练人工智能:他们制作了一个只具备最少围棋知识策略的系统,学习主要是通过观察围棋比赛获得。这指明了下一个大方向:我们可以从机器基于标注数据的监督学习走向机器依靠自己组织和结构化数据的无监督学习吗?
YannLeCun曾在Facebook的一篇帖子中说到:“在我们想要得到真正的人工智能之前,我们必须解决无监督学习的问题。”
要对照片分类,一个人工智能系统首先会获得数百万张已经正确分类了的照片;在学习了这些分类之后,它还要使用一系列标注了的照片进行测试,看它们是否能够正确标注这个测试集。如果没有标注,机器又能做什么?如果没有元数据告诉机器“这是鸟,这是飞机,这是花”,它还能发现照片中重要的内容吗?机器能像人和动物一样,只需观察远远更少的数据就能发现模式吗?
人类和动物都可以从相对很少的数据中构建模型和抽象:比如,我们不需要几百万张图像才能识别出一种新的鸟或在一座新城市找到我们的路。研究者正在研究的一个问题是对视频的未来画面的预测,这将需要人工智能系统构建对世界运作方式的理解。
有可能开发出能应对全新环境的系统吗?比如在冰面汽车会难以预料的打滑。人类可以解决这些问题,尽管它们不一定很擅长。无监督学习指出,光是靠更好更快的硬件,或开发者只是用当前的库进行开发,问题将无法得到解决。
有一些学习方法处在监督学习和无监督学习的中间。在强化学习中,系统会被给予一些代表奖励(reward)的值。机器人可以穿过一片地面而不跌倒吗?机器人可以不用地图就驾驶汽车穿过市中心吗?奖励可以被反馈给系统并最大化成功的概率。(OpenAIGym是一个很有潜力的强化学习框架)。
在一端,监督学习意味着再现一组标记,这在本质上是模式识别,而且容易发生过拟合。在另一个极端,完全无监督学习意味着学习归纳性地推理关于一个情形的情况,这还需要算法上的突破。半监督学习(使用最少的标注)或强化学习(通过连续决策)代表着这些极端之间的方法。我们将看到它们能达到哪种程度。
智能的意义
我们所说的「智能」是一个根本性的问题。在Radar2014年的一篇文章中,BeauCronin出色地总结了许多人工智能的定义。我们对人工智能的期待严重依赖于我们希望用人工智能做什么。对人工智能的讨论几乎总是开始于图灵测试。
图灵假设人们可以通过聊天的方式与计算机交互:他假设了一种与计算机的沟通方式。这个假设限制了我们期望计算机做的事:比如,我们不能期望它能驾驶汽车或组装电路。这也是一个故意的模棱两可的测试。计算机的答案可能是闪烁其词的或完全不正确的,正确无误不是重点。人类智能也可能会是闪烁其侧或不正确的。我们不大可能将正确无误的人工智能误解为人类。
如果我们假设人工智能必须被嵌入到能够运动的硬件中,比如机器人或自动驾驶汽车,我们会得到一组不同的标准。我们会要求计算机在它自己的控制下执行一个定义不清的任务(比如开车到一家商店)。我们已经打造出了在路线规划和驾驶上比大多数人类都做得更好的人工智能系统。
谷歌的自动驾驶汽车负有责任的那次事故的原因是该算法被修改得更像人类一样驾驶,并由此带来了人工智能系统通常不会具备的风险。
自动驾驶汽车还有很多没能解决的困难问题:比如在暴风雪的山路上行进。不管人工智能系统是嵌入在汽车里,还是无人飞行器或人形机器人里,其所面临的问题本质上是类似的:在安全、舒适的环境中执行是很容易的;而在高风险、危险的情形中则艰难得多。
人类也不擅长这些任务,尽管图灵所期望的对话中人工智能是回避式的或甚至会错误地回答问题,但在高速路上驾驶时,模糊或不正确的方案却是不能接受的。
可以执行物理行为的人工智能迫使我们思考机器人的行为。应该用什么样的道德来规范自主机器人?阿西莫夫的机器人定律?如果我们认为机器人不应该杀死或伤害人类,武器化的无人机已经打破了这道界限。尽管典型的问题「如果事故不可避免,自动汽车应该撞向婴儿还是老奶奶?」是虚假的道德,但这个问题也有一些更为严肃的版本。
为了避免会杀死其内部乘客的事故,自动驾驶汽车应该冲向人群吗?抽象地回答这个问题很容易,但很难想象人类会愿意购买会牺牲他们而不伤害旁观者的汽车。我怀疑机器人将来能够回答这个问题,但它也必然会在福特、通用、丰田和特斯拉的董事会上得到讨论。
我们可以通过对话系统或自主机器人系统的复杂度分布来更为简单地定义人工智能,并说人工智能只是单纯关于构建能回答问题和解决问题的系统。能够回答问题和推理复杂逻辑的系统是我们已经开发了好些年的「专家系统」,其中大部分都嵌入在沃森中。(AlphaGo解决的是不同类型的问题。)
但是,正如BeauCronin指出的那样,解决对人类来说存在智力挑战的问题是相对简单的;更困难的是解决对人类来说很简单的问题。很少有三岁孩童能下围棋。但所有的三岁孩童都能认出自己的父母——而不需要大量有标注的图像集。
我们所说的「智能」严重依赖于我们想要该智能所做的事,并不存在一个能够满足我们所有目标的单个定义。如果没有良好定义的目标来说明我们想要实现的东西或让我们衡量我们是否已经实现了它的标准,由范围狭窄的人工智能向通用人工智能的转变就不会是一件容易的事。
助手还是主角?
人工智能的新闻报道聚焦于能够自主行为的机器自主系统。这么做有充足的理由:它有趣、性感、且有点令人害怕。在观看人类辅助AlphaGo下棋的同时,很容易去幻想一个由机器主宰的未来。然而相较于自动化设备,人工智能有更多超过人类的东西。真正的价值——人工智能或者智能增强——都在哪里?人工智能还是智能增强?
这个问题自对于人工智能的初次尝试起就被问到,并由JohnMarkoff在《MachinesofLovingGrace》中深入探讨过。
我们可能不想由一个人工智能系统来做决定,而可能会想为自己保留决定权。我们或许想让人工智能通过提供信息、预测任何行动过程的后果、提出建议来增强智慧,而把决定权留给人类。尽管有点《黑客帝国》的感觉,但这个被人工智能所服务的增强我们的智慧而非推翻我们的未来会比服侍一匹脱缰的人工智能有着更大可能性。
GPS导航系统是一个人工智能系统用来增强人类智慧的绝佳案例。给定一张适宜的地图,大多数的人都能从A点导航到B点,尽管这对于自身能力还有很多要求,尤其是在我们不熟悉的领域。绘制两个位置之间的最佳路线是一个棘手的问题,特别是当你考虑到糟糕的交通和路况时。
但是有了自动驾驶车辆的除外,我们从未把导航引擎连接到方向盘上。GPS是一种严格意义上的辅助技术:它给出了建议,而不是命令。当一个人已经作出忽略GPS建议的决定(或错误)时,你都会听到GPS说「重新计算路线中」,那是它正在适应新情况。
在过去几年中,我们已经看到许多各种意义上有资格作为人工智能的应用程序。几乎所有「机器学习」框架下的事物都有资格成为人工智能:事实上「机器学习」是在人工智能学科陷入声名狼藉之时,被指称回人工智能更为成功的那部分。你不必一定要构建带有人类声音的人工智能,像是亚马逊的Alexa,当然它的推荐引擎肯定是人工智能。
类似Stitchfix的web应用也是人工智能,它增加了由时尚专家们运用推荐引擎所做出的选择。我们已经习惯了那些处理客户服务电话的聊天机器人(并经常被它们气坏)——准确度或高或低。你可能最后还是得和人类对话,而其中的秘密就是使用聊天机器人清理掉所有例行问题。让某个人类去抄录你的地址、保单号码和其他标准信息没什么意义:如果内容不是太多,计算机可以做得至少同样准确无误。
下一代助理将是(已经是)半自主性的。几年前,LarryPage说《星际迷航》中的计算机是理想的搜索引擎:它是一台能够理解人类、已消化所有可用信息、能在被提问之前就给出答案的计算机。如果你现在正在使用谷歌,当它第一次告诉你由于交通堵塞要你早点出发赴约时,你可能会感到惊讶。
这就需要纵观多个不同的数据集:你目前所在的位置、你的约会地点(可能在你的日历或联系人列表中)、谷歌地图数据、目前的交通状况、甚至是有关预期交通模型的时间先后数据。它的目的不是回答某个问题;而是甚至在用户意识到需求之前就提供帮助。
为何人们对人工智能的兴趣大增?
为什么人工智能在遭受「人工智能的冬天」(AIwinter)的几十年声名狼藉之后,会成为当下如此热门的话题?当然,人工智能的新闻也出现深蓝之后,之后又有沃森的故事;但这些风潮都没能持久。看到目前的人工智能崛起为另一次风潮是很有诱惑力的。这能让我们忽视过去十年的变化。
人工智能的兴起依赖于计算机硬件的巨大进步。列举计算机性能和存储技术自人工智能之冬起(维基百科追溯到1984年)的30多年间的巨大进步是很乏味的。但这是此篇文章无法回避的一部分,特别是如果你已经见过IBM的沃森机器支架。
据报道AlphaGo运行于1920个CPU和280个GPU;;击败了LeeSedol的机器可能更加庞大,并且它使用了谷歌用于构建神经网络所开发的定制硬件。即使人工智能算法在普通笔记本上运行很慢,但在像AWS、GCE和Azure的云平台上配置一些重要的算力是容易且相对便宜的。机器学习得以实现,部分也是因为这种存储大量数据的能力。1985年时的千兆字节(GB)还很罕见且重达数百磅;现在它已司空见惯,廉价而小巧。
除了存储和处理数据的能力,我们现在还能生成数据。在上世纪80年代,大多影像都是模拟信号。现在它们全是数字的,并有很多存储于像是Flickr、GooglePhotos、ApplePhotos、Facebook等的网络服务商那里。许多在线照片已经被贴上了一些描述性的文本,这使得它们成为了训练人工智能系统的良好数据集。
我们的许多对话也都是线上的,通过Facebook、Twitter和许多聊天服务。我们的购物历史也是一样。所以我们(或者更准确的说是谷歌、苹果、雅虎、Facebook、亚马逊等)就有了训练人工智能系统所需的数据。
我们在算法上也取得了显著的进展。神经网络并不是特别的新,但是「深度学习」却堆叠了一系列通过反馈来自我训练的网络。因而深度学习试图解决机器学习中最难的人类问题之一:从数据中学习最优表征。处理大量数据很简单,但是特征学习就更像是一门艺术而非科学。深度学习是要实现那门艺术的部分自动化。
我们不仅取得了算法上进展,更让它得到了广泛的使用,例如Caffe、TensorFlow、Theano、Scikit-Learn、MXNet、CNTK等等。
人工智能并不局限于学术界的计算机科学研究者,而是像PeteWarden所展示的那样,越来越多的人都能够参与进来。你无需了解如何实现一个复杂的算法并让它在你的硬件上运行得多么好。你只需要知道如何安装库并标注训练数据就行了。
正如计算机革命本身所发生的那样,计算机被搬出了机房并被广大市民所使用,同样的民主化进程正在制造一场人工智能革命。来自许多背景和环境的人利用人工智能做试验,我们将会看到许多新型应用。有些会看起来像科幻小说(尽管自动驾驶汽车被看做科幻小说还只是几年前的事);肯定会有我们甚至无法想象的新应用出现。
建立知识数据库
世界充满了「暗数据」:不存在于良好、有序的数据库中的非结构化信息。它在网站上、埋于表格里、被珍藏在照片和电影中;但它不易被机器智能或其他智能所捕获。
像diffbot和deepdive这样的项目是利用半监督学习来找出非结构化数据中的结构——无论是大量的科学论文还是众多网站的碎屑。一旦他们创建了一个数据库,就能用更传统的工具——API、SQL语句或者桌面应用程序——访问该数据库。
知识数据库和图表已被应用到许多智能应用中,包括谷歌的知识图谱(KnowledgeGraph)。在我们走向聊天应用时,挖掘暗数据并找出其中结构的能力将变得更加重要。在聊天应用从脚本化和目标狭隘型迈向为用户返回任意问题的答案型的道路上,暗数据的有效利用将成为这一转变的关键。
我们可能看不到这样的应用程序被用于问题「理解」,而是会成为未来辅助技术的中心。它们将依靠已被机器分解并结构化的知识库:其中包含的大量数据将超出人类的标记能力。
产生结果
不像人工智能冬天的黑暗时期,那时数据有限、计算机很慢,现在我们到处都能看到成功的人工智能系统。谷歌翻译肯定不会像人类翻译员那样好,但是它经常能够提供一个可用的翻译结果。尽管语音识别系统还没有达到随处可见的程度,也也已经是司空见惯的了,且其准确度令人惊叹;一年前谷歌声称安卓手机可以正确无误地理解92%的问题。如果一台计算机能够准确地将问题转化为文本,那么下一步就是把问题变成答案。
同样,图像识别和图像处理也已经变得司空见惯。尽管存在一些被广泛报道的尴尬错误,计算机视觉系统能够以在几年前还不可想象的精确度来识别人脸。
理所当然地,对此问题的适宜约束在其成功中起着巨大作用:Facebook可以识别照片中的面孔,是因为它假定照片里的人很可能是你的朋友。计算机视觉是(或将是)从寻常到可怕等各种层次的人工智能应用的中心。视觉显然是自动驾驶车辆的关键;它对于监控、自动锁定无人机和其他不令人舒服的应用也同样重要。
深度学习和神经网络在过去的一年里已经吸引了大量的关注:它们已经实现了计算机视觉、自然语言和其他领域的进步。
然而几乎所有打着机器学习旗号的都是人工智能:分类与聚类算法(classificationandclusteringalgorithms)、各种决策树(decisiontrees)、遗传算法(geneticalgorithms)、支持向量机(supportvectormachines)、分层式即时记忆(HTM:hierarchicaltemporalmemory)等等。
这些技术可以被自己使用,也可以与其他技术结合使用。IBM的沃森是集成学习(ensemblelearning)一个很好的例子:它是一个基于规则的系统,并依据所要解决的问题来结合使用其他算法。这个规则在很大程度上是手工制定的,而其他算法则需通过精心调整来获得良好效果。
像Watson一样令人印象深刻的、需要大量手动调整的系统是一块通向智能道路上的最好的踏脚石。任何的通用人工智能和大多数的狭义人工智能系统都将可能结合多种算法,而不是使用单一的、尚未被发现的主算法。
但这种用来得到良好结果的调整是一个主要的限制:AlphaGo团队负责人DemisHassabis说这样的调整「几乎像是一种艺术形式。」如果取得好结果需要花几年时间,并且只有一些专家(Hassabis说有几百人)有能力做这项工作,那么它还是「人工智能」吗?
类似Watson这样的引擎的创造过程是科学,然而也需要许多艺术。另外,手动优化的需求表明人工智能系统的建立方式本质上是狭隘的,只能解决单一的问题。很难想象去优化一个能够解决任何问题的「通用智能」引擎。如果你正在做这件事,那么几乎可以肯定,那是一些特定应用。
人工智能方面的进步取决于更好的算法,还是更好的硬件?如果这个问题还算有意义,那么答案就是「同时」。即使GPU进展的时间速率已经停止,我们把更多东西塞进一张芯片的力还没有停滞:AlphaGo的280个GPU能够轻松平均20万个核心。
更重要的是,我们已经看到了许多用于GPU的数学库和工具方面的改进。我们可能还会看到ASIC(application-specificintegratedcircuit)和FPGA(field-programmablegatearrays)在未来的人工智能引擎中的使用。反过来,ASIC和FPGA将成为在许多需要硬实时状态(hardreal-time)运行的硬件系统(想想自动驾驶汽车)中嵌入人工智能的关键。
但即使有了更好的硬件,我们仍然需要分布于成千上万个节点中的算法;我们需要能够飞速地重新编程FPGA的算法,以适应待解决问题所使用的硬件。MapReduce在数据分析中很流行是因为它提出了一个并行化一大类问题的方法。
并行显然在人工智能中起作用,但它的限制是什么?并行的残酷现实是,其不可被并行的部分能把你折磨死。而大多数并行算法的标志是,你需要一个用以收集部分结果并产生单一结果的阶段。AlphaGo在计算下一步棋时可能正在查看成千上万个选择,但在某一点上,它需要浏览所有的选项,评估哪个是最好的,并给出一个单一结果。
AlphaGo可以利用280个GPU的优势;那么一台有280,000个GPU的计算机怎么样?毕竟,迄今为止我们所制造的最大计算机的计算能力只相当于一只老鼠大脑的一小部分,更不要说与人类相比了。如果是不依赖于并行设计和神经网络的算法呢?在一个路线中的每个元素都采取不同方法来解决问题的系统当中,你如何运用反馈?像这样的问题有可能在不久的将来推动人工智能的研究。
在人工智能算法中使用更多(更快)的硬件有可能使我们获得更好的围棋手、国际象棋手和Jeopardy玩家。我们将能更快更好地分类图像。不过这是我们目前可解决问题的一项改进而已。更多计算能力将会把我们从监督学习领到无监督学习吗?它会把我们从狭义的智能引到通用智能中吗?这还有待观察。无监督学习是一个难题,而且我们并不清楚能否只通过使用更多硬件来解决它。我们仍然在寻找一个可能并不存在的「主算法」。
道德和未来
对超智能的谈论很容易把人吓到。而且据一些人说,现在是时候决定我们想要机器做什么了,趁现在还未为时已晚。尽管这种立场可能过于简化了,但思考如何限制我们还未造出来的设备是非常困难的;而且它们的能力我们现在还无法想象,可能未来永远也无法理解。
拒绝人工智能也是很困难的,因为没有任何技术是在人类事先考虑周全之后才被发明出来的。在历史的不同时期人们害怕的许多技术现在已经司空见惯:在某个时候,很多人认为以超过每小时60英里的速度旅行是致命的。苏格拉底反对书写,因为他担心这会导致健忘:想象一下他会如何看待我们今天的技术!
但我们可以思考人工智能的未来,以及我们开发协助我们的人工智能的方式。这里给出了一些建议:大部分对超人工智能的恐惧都不是在害怕我们已经知晓或理解的机器,他们害怕的是最糟糕的人性加上无限制的力量。我们无法想象一个思考着我们不能理解的想法的机器;我们想象那是不可战胜的希特勒或斯大林——我们确实能理解他们的想法。我们的恐惧本质上是人类的恐惧:对像人类一样行为的万能机器的恐惧。
这并不是诋毁我们的恐惧,因为我们已经见到机器学习确实能向人类学习。微软不幸的Tay是对话型人工智能Bot从网络对话中「学会」种族主义和偏见的完美案例。谷歌的图像分类曾将黑人夫妇识别为「猩猩」,这个糟糕的测试结果的原因是训练数据集中没有足够的合适标注的黑人图片。
机器学习成为种族主义者的方式和人类差不多一样:因为这是我们教它们那样做的,不管是有意还是无意。这是一个人类问题,而且是一个可以解决的问题。我们可以在人工智能学习的内容和方式上更加小心。
我们可以对我们的训练集中的内容以及这些训练集的标注方式更加谨慎,我们可以过滤我们认为可以接受的答案类型。这些没什么是特别困难的;但却是必须要做的。更困难的是在目前的环境中让人们达成共识:认为种族主义和仇恨是不好的。
这是人类价值观的问题,而不是机器智能的问题。我们会构建出反映了我们自身价值观的机器:我们已经在那样做了。它们是我们想要反映的价值吗?
白宫对数据科学的报告《BigRisks,BigOpportunities:theIntersectionofBigDataandCivilRights(大风险、大机遇:大数据和民权的交集)》在总结章节中提到,我们需要研究审核算法的方法,以「确保人们被公平对待」。随着我们从「大数据」走向人工智能,对算法的审核以及确保它们反映我们所支持的价值观的需求将只会增长。
将对人工智能的深入研究开放给大众,让公众可以见证到,这一点极其重要。这并非因为我们相信,大众会对研究少些「恐惧」(这一点,或许是对的,也可能是错的),也不是因为大众多少会对超级智能的观念「习以为常」;而是因为较之公之于众的研究,人们对闭门研究会投以更大的关注。
实际上,《不道德的研究(UnethicalResearch)》这篇论文建议,打造一个健康的人工智能生态系统的最好方式就是将打造恶毒机器的想法公开。研究会继续在背后进行,认为军方研究和情报部门没有致力于人工智能的想法,很天真。但是,如果没有公开状态下进行人工智能研究,我们就会受到军方或者情报部门研究的支配。
(一个公司,比如谷歌或者Facebook,是闭门研究抑或开诚布公,是个值得讨论的问题)这也就是OpenAI的宗旨:「以尽可能从整体上让人类受益的方式推进数字化智能的研究,不受需要财务收益的限制。」OpenAI是一个激动人心而且让人吃惊的应答(针对人们对人工智能恐惧):尽可能远地推进这项研究,但是公开确保公共领域的研究领先于闭门研究。
对于研究来说,开放且公开也同样重要,因为研究起源时常决定了研究的应用。核能就是个好例子。我们可以打造安全、高效的核反应堆。但是,我们从来没有打造过钍反应堆,因为他们不会帮你制造炸弹,而且对核能的深入研究是由国防部门控制的。
核反应堆不是不会产生可用数量的钚吗?为什么任何人都想要核反应堆?再一次,认为军方和国家情报部门不会做出优秀的人工智能研究,这种想法太天真。但是,如果人工智能变成国家情报部门的专属领域,那么,就会有秘密窃听和理解对话的优秀系统。
当思考人工智能还能为我们做些什么时,我们的想象力会受到限制,而且也很难想象人工智能的应用到底会有哪些,除了杀人无人机、老大哥(BigBrother,典出乔治·奥威尔的名著《1984》)的耳目。我们或许永远无法研发出智能医疗系统和机器人护士助理。
如果我们想要让人工智能服务于人类,就必须公开进行研究:作为人工智能研究人员这一更大社区的一部分,作为更为广泛的公众讨论(讨论目标和宗旨)的一部分。我们必须小心,不要打造出人类自己的最糟梦魇;但是,也许需要认识到,噩梦只不过是一个更强大的、真实的人类自身的版本。
总是在未来
扎克伯格最近说道,未来五到十年,人工智能会比人类更善于做一些最基础的任务。也许他是对的,但是,同样清楚的是,他讨论的是狭义人工智能:从事特别任务,比如语音识别,图像分类以及游戏。他继续说,「那并不意味着计算机将会思考...」。
根据你的交谈对象,一个真的通用智能可能距离我们10到50年。考虑到预测科技未来的难度,最好的答案是「十多年以后」,而且可能更久。啥时候可以做出人类水平的机器智能?一份最近的专家调查(FutureProgressinArtificialIntelligence:ASurveyofExpertOpinion)显示,可能是2040-2050年左右(概率为50%)。正如LeCun所言,「人类水平的通用智能距离我们几十年。」
因此,如果真的可以,我们什么时候会到达那里?几年前,JasonHuggins对机器人的评价,可谓先见之明。机器人,他说,总是在未来。机器人片段一次又一次地中断,成为现在的一部分;但是,当那发生时,它们不再被视为机器人。上世纪二十年代,我们就将一台现代洗碗机视为一个超级智能机器人;如今,不过是一个洗碗机。
这种情形也将不可避免地发生在人工智能身上。实际上,已经发生了。我已经避免对机器智能和人工智能做出区分;「机器智能」是一个术语:当人工智能这个词声名狼藉时,这个术语被用于指代人工智能研究中的一些想法。
如今,那些想法中的很多都变得很常见了。我们不会对亚马逊的推荐系统或者GPS导航思虑再三,我们将之视为理所当然。我们或许发现Facebook和谷歌的图像标签功能很诡异,但是,看到它时,你不会认为那是人工智能。
所有严肃的象棋玩家会对阵象棋程序,围棋菜鸟也是如此,而且在AlphaGo获得成功后,对弈计算机也会延伸到专家层面。这些就是人工智能,他们已经中断并成为当今世界的一部分。这一过程中,人工智能变化了形态,成为IA(智能增强):碾压人类能力的自动化技术开始变得具有辅助性。
我们能否指着某件东西说,「是的,那就是人工智能?」是的,当然可以,我们现在就可以这么做了。更重要的是,我们将不可能避免地被人工智能围绕着,甚至在我们知道这些东西人工智能之前。我们将管道、电力视为理所当然之物,我们的孩子将流媒体音乐视为理所当然。我们也会视人工智能为理所当然,当它们在生活中越来越普遍时。返回搜狐,查看更多
人民日报:重视通用人工智能发展,什么是通用人工智能
通用人工智能,智能科学与技术专业术语。通用人工智能的研究目标是寻求统一的理论框架来解释各种智能现象,并研发具有高效的学习和泛化能力、能够根据所处的复杂动态环境自主产生并完成任务的通用人工智能体,使其具备自主的感知、认知、决策、学习、执行和社会协作等能力,且符合人类情感、伦理与道德观念。
追加内容本文作者可以追加内容哦!
VALSE 2023
作者 | 谢凌曦 编辑 |极市平台
原文链接:https://zhuanlan.zhihu.com/p/620631150
点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
点击进入→自动驾驶之心【AIGC】技术交流群
导读
CV是否已经做好实现发展大一统的任务和体系?当前的视觉基础模型(包括最近的SAM)究竟做到了什么、没有做到什么?
引言距离上次的长篇大论,已经过去了半年有余。这段时间,对于AI业界甚至整个世界,都是惊心动魄的。在这段时间里,最令人印象深刻的大事莫过于ChatGPT和GPT-4的发布。毫无疑问,GPT-4是有史以来最为强大的AI程序。在随后发表的一篇论文[1]中,学者们将GPT-4称为通用人工智能(AGI)诞生的火花。诚然,每个人对于AGI的定义不尽相同,现阶段的GPT也尚未真正解决AI领域的所有难题;然而,基于大模型的技术,确实已经接近完成NLP领域的大一统,甚至让人隐约看到了AGI的曙光。或许,在3-5年内,我们就能够看到冯诺伊曼架构基础之上的AGI计算架构;倘若如此,大模型将在其中占据核心位置。
除了GPT系列外,计算机视觉领域也好不热闹,几个前沿方向都出现了令人惊叹的进展。对于公众来说,感受最深的莫过于AI绘画了。StableDiffusion[2]和ControlNet[3]等技术的出现,大幅降低了训练和应用扩散模型的门槛。在Midjourney等社区中,AI绘画的发展速度可谓一日千里,许多技术困难(如AI不会画手、不会数数等)也得到了初步改善。如今,只要有一块入门级GPU或者交一点订阅费用,每个人都可以创作出自己的AI作品来。就连一段时间以来颇为平淡的视觉感知领域,也被一个叫做SAM[4]的方法搅动起来:虽然SAM还存在诸多缺陷(如语义识别能力有限),但它让人看到了视觉基础模型的更多可能性。根据Googlescholar的统计,仅仅两个月的时间里,SAM就得到了超过200次引用,足见关注程度之高、研究之内卷。
面对如此冲击,包括我在内的许多研究者都会感到迷茫。很显然,在NLP的引领下,发展大一统的任务和体系,将成为未来3-5年整个CV领域的核心课题。然而,CV是否已经做好实现这个宏伟目标的准备?当前的视觉基础模型(包括最近的SAM)究竟做到了什么、没有做到什么?这篇断断续续写了两个月的文章,就是我对于这些问题的思考。
文章的部分内容,也被我整理成一篇微型survey,并与VALSE上报告的PPT一起,放在以下地址:
https://github.com/198808xc/Vision-AGI-Survey
图1:调研报告首页截图。arXiv链接如下:
https://arxiv.org/abs/2306.08641
在这篇文章中,我将从AGI的定义说起。随后,我将简要回顾NLP领域所经历的变革。基于大语言模型的GPT系列,为自然语言处理带来了划时代的改变,点燃了AGI的火花。接着,我将进入CV领域的讨论。作为AGI的下一个重要战场,CV领域正在走向大一统模型,但是面临的困难还很大。我将回顾现有工作,分析本质困难,并且在GPT的启发下提出一种新的研究范式。最后,我还将分享一些个人观点。
人工智能和通用人工智能今天的人们,对于人工智能(AI)一词并不陌生。现代意义上的AI诞生于1956年的达特茅斯会议,随后经历了几十年的发展,几经兴衰。AI的根本目标,在于使用数学方法复现人类智能。近年来,在深度学习的带动下,AI领域取得了长足进步,也深刻地改变了人们的生产生活方式。
通用人工智能(AGI),是AI发展的最高目标。关于AGI的定义有很多,其中最通俗的一种,即AGI是能够具有任何人类和动物所具有能力的算法。从早期的图灵测试(早于达特茅斯会议)开始,关于AGI的追求和争论从未停止。深度学习的出现,大大加快了AGI的进程;而近期的GPT系列,则被学者们认为是点燃了AGI的火花[1]。深度学习本身提供了一种通用的方法论,使得人们可以在确定输入和输出形式的情况下,使用统计学习方法,构建神经网络(一种层次化的数学函数)来近似输入和输出之间的关系。只要有足够多的数据,深度学习就能够应用于CV、NLP、强化学习等诸多AI子领域。
关于AGI的形式化定义,则可以借鉴2007年出版的《通用人工智能》一书 的观点。将智能体放在一个环境中,当它观察到一系列状态 时,可以从某个集合 里选择相应的行动,并且得到相应的奖励 。AGI的目标是学习一种映射 ,使得其在环境中行动时,得到的累计奖励 最大化。AGI的定义虽然很简单,但是实现起来却非常难,主要困难包括但不限于:实际数据具有很高的维度、人类智能具有复杂特性、神经和认知科学的理论缺失,等。
GPT:点燃NLP领域的AGI火花发布以来,GPT系列刷新了无数纪录,其中就包括2个月内达到1亿用户的神迹。这个纪录的重要性在于,它表明了AI算法已经具备面向普通用户(toconsumers,即2C)的能力,这在历史上还是第一次。为了做到2C,AI算法必须具备极强的通用能力,能够满足用户的绝大部分要求。令人吃惊的是,GPT做到了这一点。GPT基本上解决了NLP领域的常见问题。在许多问题(如编写代码)上,GPT的能力甚至超越了专门设计的算法。也就是说,GPT实现了NLP领域的大一统:原先看似孤立的各个任务,都可以在多轮对话任务下统一起来。诚然,GPT还不完美,也会在许多问题上犯错或者胡言乱语,但是在可预见的范围内,NLP的研究范式不会再发生大的变革了。这场旷日持久(从达特茅斯会议算起,已有近70年)的NLP战争已经分出胜负,接下来就是些打扫战场的工作,比如解决垂直领域问题、逻辑推理、提高用户体验,等等。
关于GPT的能力展示,此处不再赘述,大家可以参考互联网上浩如烟海的资料,或者“AGI火花”一文里系统详尽的分析[1]。我只想引述GPT-4官方新闻的一句话:
Asaresult,ourGPT-4trainingrunwas(forusatleast!)unprecedentedlystable,becomingourfirstlargemodelwhosetrainingperformancewewereabletoaccuratelypredictaheadoftime.结果表明,GPT-4的训练过程(至少对我们来说)前所未有地稳定,它也成为我们训练过的第一个能够提前准确预测效果的大模型。
换句话说,GPT-4的本质是个神经网络,是个概率模型;但是它表现出来的行为(不论是训练还是测试),已经稳定得不像个概率模型了。这着实是一次了不起的技术突破!
关于GPT系列的实现原理,许多优秀的文章已经做过分析,此处我不再赘述。简单地说,GPT训练分为两个阶段。第一阶段被称为生成式预训练,主要在无标注的通用语料库中进行。大规模语言模型通过预测下一单词,拟合通用文本的数据分布,并获得in-contextlearning能力,能够通过少量示例来适应新任务。第二阶段被称为指令微调,主要在有标注的对话数据库中进行。在此过程中,大规模语言模型将通用文本分布对齐到问答数据中,显著提升了针对性解决问题的能力。同时,模型还可以从人类用户的反馈中学习奖励函数,从而进一步增强其满足用户偏好的能力。如果对更具体的分析感兴趣,可以自行搜索ChatGPT的实现原理。
CV:AGI的下一个战场由于人类通过多种模态来理解世界,因此真正的AGI必须结合CV和NLP来实现。然而,在CV中实现AGI,比在NLP中实现AGI的难度大很多。根据前面的定义,真正的AGI应该具有即解决通用问题、与环境互动的能力,而不仅仅是完成万物识别和多模态对话等初级任务。然而如图2所示(示例图源:UberNet[6]),相比于利用统一对话系统来解决所有问题的GPT,当前CV的常用方法论还比较初步,大多局限于使用独立的模型甚至算法来解决不同的问题,包括图像分类、物体检测、实例分割、注意力检测、图像描述、以文生图等。
图2:当前CV主要使用独立的算法解决问题。
艰难的CV大一统之路为了接近GPT的水平,CV必须走向大一统,也就是使用一套系统,解决各种视觉问题。近来,业界出现了不少此类尝试,我们将其分为五个主要方向。其中前三个方向主要解决任务形式的统一、第四个方向主要解决视觉任务逻辑的统一、最后一个方向主要解决视觉和语言交互的统一。以下我们简要综述每个方向的代表性工作,并且分析它们的优缺点。
开放域视觉识别: 即要求算法不仅能够识别训练集中出现过的概念,还能够通过自然语言等方式识别训练集中未出现过的概念。当前,开放域识别的主要奠基性工作为CLIP[7],它提供了文本和图像间的跨模态特征对齐方法,使得人们能够统一使用自然语言来指代目标语义,从而完成了分类、检测、分割、定位、按需识别等各类任务。虽然自然语言提供了足够的灵活性,使得开放域识别成为可能,但自然语言难以指代视觉信号中的细粒度信息,从而在一定程度上限制了识别能力。
SegmentAnything任务: 通过设计统一的prompt系统并且在标注层面完成数据闭环,SAM[4]能够分割出图像中的所有基础单元,并且在相当广泛的视觉域中展现出了泛化能力。无需重新训练,SAM就能提供基础语义单元,并应用于分割3D物体、物体消除和填充、分割医疗影像或者隐藏物体,等。SAM传递出的重要思路是:通过降低视觉任务的难度(此处主要指无语义标签的分割),来统一视觉任务形式定义,增强模型的域间迁移能力。从形式看看,SAM很像通用的视觉识别流程中的一个部分,但如何构建合理的上下游模块来配合它(以构建完整流程),依然是个开放问题。
通用视觉编码: 即一系列通过统一编码形式,来整合多种任务的尝试。它们虽然形式不同,但是都指向同一个目标,即通过把不同模态、不同任务的数据编码为统一形态,使得单个神经网络模型能够完成尽可能多的任务。其中代表性的方法分为三类:首先是Gato[8],它验证了单个transformer模型能够完成CV、NLP、强化学习等任务;其次是pix2seq[9]和OFA[10],验证了不同视觉任务(如检测、分割、描述)在自然语言形态下得到统一,从而送入单个模型进行训练;最后是Painter[11]和SegGPT[12],借鉴了NLP中in-contextlearning的方式,将一系列视觉任务编码为不同形式的图像密集预测任务,并训练单个纯视觉模型来解决问题。相比于传统视觉识别框架,这些方法更接近大一统的目标,也论证了当前的神经网络模型特别是transformer能够适应一大类跨模态任务。然而,这些仅仅追求形式上的统一,与多任务学习的边界并不清晰,也并未充分展现出统一带来的好处。
大语言模型引导的视觉理解: 在语言模型的协助下,将复杂视觉问题拆解为统一的逻辑链,并分步解决问题。其实这类方法并非最近才出现:至少在2017年,就出现了使用LSTM拆分问题并调用视觉模块的尝试[13]。只是大语言模型的出现,使得这一方法论的通用性大大增强。最近出现的一系列工作,其共同特点是使用GPT将文本问题转化为可分步执行的逻辑。这种逻辑可以是代码,可以对接搜索引擎,也可以表现为流程图或者自然语言。必要时,程序将调用视觉模块,以提供检测、计数、OCR、描述等基础能力。这类方法充实了视觉问答的逻辑,也提升了答案的可解释性,但它强烈地依赖于大语言模型和基础视觉模块。很多情况下,以检测为代表的视觉任务本身也需要复杂逻辑来完成。很显然,当前的方法很难下探到这一深度。
多模态对话: 在对话任务中引入图像或视频作为参考,从而允许通过对话任务来完成统一形式的视觉理解。在视觉、语言、跨模态预训练模型的基础上,只需要微调很少部分的参数,就能完成问答任务[14]。受到GPT系列的启发,研究者们将视觉标注送入语言模型,在简单的提示下,生成了问答数据[15]。多模态对话模型在这些问答数据上微调之后,就具备了回答复杂问题的能力。目前,以此种方式产生的问答结果,已经可以媲美GPT-4技术报告中提到的例子[16]。然而,当前多模态对话系统的能力,大部分来自大语言模型。这也就意味着,与开放域识别一样,多模态对话对于细粒度视觉信息的指代能力比较有限。在使用复杂图像作为参考时,算法很难针对其中某个特定的人或物进行提问,从而也限制了解决具体问题的能力。
以上几个方向的研究,将CV领域带到了新的高度。以当前进展看,CV算法能够在一定条件下完成视觉识别,也能够进行初步的多模态对话,但是距离大一统模型、距离通用的任务解决还有很远。而后者正是AGI所需要的能力。
于是我们不禁要问:为什么在CV中完成大一统如此困难? 这个问题的答案,还要从NLP中去找。
NLP给CV带来的启发我们尝试从另一个视角来理解GPT所完成的事情。我们不妨想象自己像GPT一样,生活在一个纯文本的世界里。在这样的世界里,多轮对话任务是充分且必要的:一方面,我们只能通过文字与其他智能体交流;另一方面,我们可以通过多轮对话去完成所有任务。也就是说,在NLP领域,学习环境是完备的:我们通过多轮对话来训练算法,而算法也只需要掌握多轮对话,就是一个能够完成所有任务的AGI。我将这个性质成为“所训即所需”——这个词是模仿“所见即所得”造出来的。
这样看来,GPT所定义的对话任务,比起GPT的实现方法更加重要! 这种定义使得AI算法能够通过与环境互动来学习,恰好符合AGI的定义:与环境互动,并且最大化奖励。相较而言,CV就没有形成清晰的路线:既没有环境用于预训练,各种算法也并不能在实际环境中解决问题。显然,这背离了CV和AGI的基本原则。事实上,早在1970年代,计算机视觉的先驱大卫·马尔就提出:视觉算法必须构建真实世界的模型,并且从交互中学习[17];随后也不乏其他学者指出交互的重要性。然而如今,大部分视觉算法并非研究如何与环境交互,而是研究如何在各种任务上提升精度。
这是为什么呢?当然是环境构建的难度太大!
代理任务:理想向现实的妥协要想构建场景用于CV任务,主要有两种方法:
构建真实环境: 在真实世界中放置大量智能体,使其通过与包括人类在内的其他智能体互动学习。这种方式的缺点在于成本太高且难以确保安全。
构建虚拟环境: 通过视觉算法模拟或者重建3D环境,在虚拟世界中训练智能体。这种方式的缺点在于真实性不足,包括场景建模的真实性和智能体行为的真实性,从而训练的智能体难以有效迁移至真实世界中。
除此之外,对环境中其他智能体行为的模拟也很重要,这决定了CV算法在真实应用场景中的适应能力。如果希望环境与智能体互动(例如在现实世界中放置一个真实的机器人),则收集数据的成本还会显著上升。另一方面,环境中的智能体的行动模式往往比较单一,难以模拟真实世界中丰富而开放(open-domain)的行为。
总的来说,目前所构建的场景,还不足以满足大规模训练CV算法的需要。在无法模拟环境情况下,人们只能退而求其次,不直接与环境互动,而从真实环境中采样大量的数据,并且将与环境互动可能需要的能力定义为一系列代理任务(即通过完成任务,接近最终的目标),如物体识别、追踪等。人们假设,通过提升这些代理任务的精度,就能够让CV算法更接近AGI。
可问题是,这个假设对吗?
图3表达了我们的观点。在深度学习出现之前,CV的算法还比较弱,代理任务的精度也不高。当时,对于代理任务的追求,很大程度上推进了AGI的发展。然而过去十年,随着深度学习的发展,各项代理任务都已经高度饱和。在ImageNet-1K数据集上,top-1分类精度已经从前深度学习时代的50%以下提升到了90%以上。此时,继续提升代理任务的精度,有可能无法逼近AGI,甚至与之背道而驰。GPT的出现,进一步印证了这个观点:在接近AGI的模型出现后,原本孤立的NLP代理任务,如翻译和命名实体抽取,就变得不再重要了。
代理将死!
图3:CV的代理任务正在失去意义,甚至使我们远离AGI。未来范式:从环境中学习我们设想的学习流程如图4(图源:Habitat[18]和ProcTHOR[19])所示,分为如下阶段:
第0阶段,环境构建。 通过各种方式构建虚拟环境,尽可能地增强环境的丰富性、真实性,可交互性。
第1阶段,生成式预训练。 让智能体探索环境,结合自身行动,预测未来将会看到的画面。这对应于GPT的预训练阶段,任务是预测下一个单词。在这个过程中,CV算法记忆了现实世界的分布,并做好了通过少量样本学习任务的能力。
第2阶段:指令微调。 训练智能体完成具体任务,如寻找特定物体,甚至与其他智能体交互。这对应于GPT的指令微调任务,同样建立在丰富的任务描述和人工指令数据基础上。在这个过程中,CV算法为了完成任务,必须掌握各种视觉概念,并习得按需处理视觉信号的能力。
下游阶段(可选)。 可以用基于prompt的方式,将AGI模型用于传统视觉任务。
图4:设想中的未来CV训练流程,在环境探索、完成任务,并迁移到下游感知任务。需要注意的是,在这样一个流程中,代理任务只是算法在通用任务上训练过后,“顺手”习得的能力。而现在的大部分CV研究,却将代理任务作为唯一的追求,属实是本末倒置了。
要想实现上述流程,面临的困难有很多。我们从三个阶段来分析。
更复杂的虚拟环境。 当前构建虚拟环境的方法主要有两种。一是基于真实数据产生的虚拟环境: 收集实际场景数据,并将其建模为点云、面片(mesh)、神经辐射场(NeRF)等数据结构,并支持高速、大规模的渲染。这种做法的成本还比较高,难以规模化生产环境。当前可用的3D数据集(如Habitat[18]),相比于2D数据集,规模要小好几个数量级,且依然局限于某些特殊场景(如室内或者街景)。二是通过仿真学方法构建虚拟环境: 通过3D建模、生成式算法(包括GAN和扩散模型)等方式,直接采样虚拟数据并渲染3D环境。这种做法虽然能够批量生成环境(如ProcTHOR[19]),但它不易还原真实世界的数据分布。一方面,图像上通常包含影响算法学习的artifacts(即使肉眼难以观察出来),从而难以保证在虚拟数据上训练的模型的迁移能力。然而不论是哪种方法,虚拟环境的大小和真实度还不能满足要求,且难以允许AI算法与环境中的其他智能体互动。
更复杂的数据结构。 NLP的数据结构比较简单,它天然具备“单词”这样基本、不可分的[20]语义单元,也自然地设计出了transformer这样的架构来处理这些离散单元;在任务层面上,NLP将预训练定义为上下文生成(俗称完形填空),同时也将所有下游任务也建模为上下文生成。如此浑然一体的框架,使得NLP的预训练任务和下游任务之间gap很小。然而CV的数据结构就要复杂得多:这种复杂不仅体现在图像的维度更高,而且体现在图像的基本语义单元难以定义。在这种情况下,一味地“抄作业”,强行把图像切分为tokens以套用transformer架构,显然不是最优方案。当前,我越来越倾向于认为,token只是一种假象、一种权宜之法,真正适合视觉表征的数学性质,还需要更多工作来揭示。
更复杂的实际任务。 显然,引入CV信号后,智能体通过与环境互动,能够完成更多、更复杂的任务。与NLP的多轮对话相比,这些任务的形式更复杂、数据模态更丰富、多样性也更显著。可以预期,如果采用指令微调的方式,就需要收集更多的数据,甚至引入真实智能体的行为模式。这对于数据量、数据复杂度等方面,都有更高的要求。
最近,我们关注到一些令人欣喜的工作。其中一个工作是PaLM-E[21],它使用跨模态基础模型来指导具身视觉算法,增强其能力。另一个不如PaLM-E有名,但却更让人振奋的工作则是ENTL[22],它将环境建模和指令学习都建模为序列预测的形式,实现了上述框架的雏形。这些工作照亮了在环境中学习的道路;在此基础上,伴随着系统设计和工程优化,我们将会看到CV大一统的光明未来。
小结在达特茅斯会议的提议书中,AI的先驱者们写下了一个看似平凡,却无比困难的问题:如何让计算机学会使用人类语言?经过几十年的努力,研究者们终于在NLP领域看到了AGI的曙光,但是CV领域距离这个目标还有很远。造成CV当前困境的本质原因,在于CV领域没有构建起“从环境中学习”的范式,因而只能采样环境、设计代理任务,无法形成系统层面的闭环。未来,为了实现CV的大一统,我们必须抛弃现有框架,设计全新的具身范式,让CV算法在与环境的交互中增强能力,不断进化。
一些感性的思考最近一段时间,我看到了许多稍显浮躁的论调。其中最为常见的,莫过于AI将要革新一切,甚至消灭大部分AI从业者,最终达到共同失业(划掉最后一句)。作为理智的从业人员,我知道CV算法的能力还比较有限,硬骨头还有很多。不过有一点是确定的:大规模语言模型(LLM)已经具备了强大的意图理解和初步的逻辑推理能力,因而达到了成为AI与人类沟通的“中枢系统”的条件。一旦如此,这条技术路线就会固化下来,在未来3-5年甚至更长的时间内,业界要做的事情只有两件:继续强化中枢系统(增强LLM或者构建其多模态的变种、以模块化的形式完善其各项能力),并且将这种范式复刻到CV领域里去。如今,再讨论大模型是否是未来已经没有意义,我们要做的,就是为CV真正用上大模型做好铺垫和准备。
目前看来,大模型很可能会成为与深度学习本身相媲美的革命性技术,我们很可能正在经历一场技术革命。在大模型定义的新时代里,我们每个人都是初学者。以代理任务为代表的旧时代遗存,将很快失去价值;而不能勇敢地拥抱新方法的人,也将随着代理任务一并消亡。
附录以下文字,是对上述观点的补充,也是一些暂时还没有形成体系的思考。
再谈CV的根本困难在去年的那篇文章里,我阐述了CV的三大根本困难,即信息稀疏性、域间差异性、无限粒度性,并且指出它们正是采样+代理任务的范式所带来的副作用。文章链接如下:
https://zhuanlan.zhihu.com/p/558646681
其中的关键段落摘抄如下:
从根本上说,自然语言是人类创造出来,用于存储知识和交流信息的载体,所以必然具有高效和信息密度高的特性;而图像则是人类通过各种传感器捕捉的光学信号,它能够客观地反映真实情况,但相应地就不具有强语义,且信息密度可能很低。从另一个角度看,图像空间比文本空间要大得多,空间的结构也要复杂得多。这就意味着,如果希望在空间中采样大量样本,并且用这些数据来表征整个空间的分布,采样的图像数据就要比采样的文本数据大许多个数量级。顺带一提,这也是为什么自然语言预训练模型比视觉预训练模型用得更好的本质原因——我们在后面还会提到这一点。根据上述分析,我们已经通过CV和NLP的差别,引出了CV的第一个基本困难,即语义稀疏性。而另外两个困难,域间差异性和无限粒度性,也多少与上述本质差别相关。正是由于图像采样时没有考虑到语义,因而在采样不同域(即不同分布,如白天和黑夜、晴天和雨天等场景)时,采样结果(即图像像素)与域特性强相关,导致了域间差异性。同时,由于图像的基本语义单元很难定义(而文本很容易定义),且图像所表达的信息丰富多样,使得人类能够从图像中获取近乎无限精细的语义信息,远远超出当前CV领域任何一种评价指标所定义的能力,这就是无限粒度性[23]。
进一步分析,我们就会得到一个有趣的结论:CV的本质困难在于人类对视觉信号的理解十分有限。人类从来就没有真正掌握视觉信号的结构,乃至为其定义某种专用语言,而只能通过自然语言来指代和表示视觉信号。许多明显的证据都能够表达这一点:大部分人在没有经过训练的情况下,很难画出具有真实感的图像(这表明人类没有掌握图像的数据分布);同时,大部分人很难通过语言交流,向另外一个人准确地表达图像上的意思——即使两人在语音通话,且看着电脑上的同一张图,要想通过纯语言交流指代图中的某些细节元素,也未必总是容易的。
如果重新审视CV的三大根本困难,就会发现它们可以统一起来,体现为视觉信号的表征粒度具有主观性和不确定性,或者追求客观的视觉信号与追求简洁的语义信号之间的矛盾。当表征粒度较大(即追求语义信号的简洁性)时,人类可以用较为简洁的方式表达视觉信息,于是认为视觉信号具有语义稀疏性;当表征粒度较小(即追求视觉信号的客观性)时,人类又能够识别出图像中丰富的视觉信息,于是认为视觉信号具有无限粒度性;当表征粒度不确定时,人类很难将连续变化的视觉信号与离散的语义空间对应起来,于是在视觉信号改变而语义不变的范围内,就产生了域间差异性[24]。
此外需要特别指出的是,信息稀疏性和无限粒度性之间的矛盾,主要体现在传统的代理任务中。此时,如果追求表征的高效性(如使用信息压缩作为指标),就难以保证识别的细粒度和准确率。为了规避这样的矛盾,唯一的方案是构建真实的交互环境,允许智能体根据任务来调整视觉信号的粒度。
再次对比CV和NLP,就会发现,NLP很好地避免了粒度不确定的问题。由于NLP处理的文本信号是人为创造的,它的粒度就是文字本身的粒度。虽然这个粒度可变(例如用语言描述一个物体或者场景时,既可以描述得很精确,也可以描述得很粗略),但人类确定了这个粒度,并且保证它与实际需求相吻合。
既然NLP的粒度比较明确,是否可以帮助CV完成任务?我们发现,以往几乎所有CV方法,都使用NLP的方式来定义粒度。其中典型的例子有两个:基于分类的任务以及语言指代的任务。这两种方式各自存在的缺陷,我在之前的文章中也分析过,摘录如下。
基于分类的方法:这包括传统意义上的分类、检测、分割等方法,其基本特点是给图像中的每个基本语义单元(图像、box、mask、keypoint等)赋予一个类别标签。这种方法的致命缺陷在于,当识别的粒度增加时,识别的确定性必然下降,也就是说,粒度和确定性是冲突的。举例说,在ImageNet中,存在着“家具”和“电器”两个大类;显然“椅子”属于“家具”,而“电视机”属于“家电”,但是“按摩椅”属于“家具”还是“家电”,就很难判断——这就是语义粒度的增加引发的确定性的下降。如果照片里有一个分辨率很小的“人”,强行标注这个“人”的“头部”甚至“眼睛”,那么不同标注者的判断可能会不同;但是此时,即使是一两个像素的偏差,也会大大影响IoU等指标——这就是空间粒度的增加引发的确定性的下降。语言驱动的方法:这包括CLIP带动的视觉prompt类方法,以及存在更长时间的visualgrounding问题等,其基本特点是利用语言来指代图像中的语义信息并加以识别。语言的引入,确实增强了识别的灵活性,并带来了天然的开放域性质。然而语言本身的指代能力有限(想象一下,在一个具有上百人的场景中指代某个特定个体),无法满足无限细粒度视觉识别的需要。归根结底,在视觉识别领域,语言应当起到辅助视觉的作用,而已有的视觉prompt方法多少有些喧宾夺主的感觉。
说了这么多,还是回到开始的那个根本症结:视觉没有定义好自己的语言。当前可见的方法,都是用NLP的方式来定义CV。这些方法可以解决CV的初级问题,但要深入探索下去,就要碰得头破血流!
CV所处的发展阶段很显然,GPT范式在NLP领域的大获成功,让CV研究者有些心痒难耐。遵循NLP的发展路径看,NLP在GPT-1阶段构建了大模型,在GPT-3阶段观察到了能力涌现,进而在ChatGPT阶段采用了指令学习来解决具体任务。
于是一个很重要的问题是:当前的CV研究,到底发展到了什么阶段?
4月底,我参加了一次VALSE线上研讨会的panel环节,其中一个问题就是:SAM是否解决了计算机视觉问题,或者是否达到了GPT-3的水平(以致于可以在此基础上构建强大的CV算法)。我给出的结论很悲观:SAM没有达到GPT-3的水平,甚至离GPT-1还很远。其中最重要的原因,就是CV没有构建合适的学习环境。前面说到,NLP构建了对话环境,并且针对对话任务,设计了完形填空配合指令微调的学习范式。如果CV要仿照这套流程,就应当也构建交互任务,并且设计相应的预训练和微调任务。很显然,当前的CV学习范式并没有做到这一点,因此我们总感觉CV的上下游任务是脱节的:即使当前效果最好的MIM方法,似乎也和下游任务关系不大。要解决这个问题,很可能要从源头下手,构建起真正的学习环境来。
接着我们讨论能力涌现的问题。关于NLP的大模型为什么能够观察到能力涌现,业界似乎还存有疑问。我自己有一个大胆的假说:能力涌现的前提,是预训练数据已经覆盖了现实世界的一定比例。在这种情况下,预训练模型不必担心过拟合,因为它的任务就是记忆数据分布,某种意义上就是过拟合——这个假说也同时揭示了为什么NLP可以追求大模型:因为在不担心过拟合的情况下,大模型的拟合能力要更强。在这里,NLP的特征空间小、数据形态简单的优势就体现出来,而CV要想达到这样的状态,还需要更多的数据和更大的算力。
我有一个不严格的类比:NLP好比国际象棋,CV好比围棋。1996年,超级计算机深蓝通过启发式搜索的方式,在国际象棋中战胜了人类世界冠军,但是相似的方法无法在围棋中复现,因为围棋的状态空间要远远超过国际象棋。后来,在深度学习的帮助下,围棋的启发式函数得到了非平凡的改进,终于能够支撑起更复杂的状态空间的探索。如果没有深度学习,也许人类要再过几十年,才能够通过超大计算量的堆砌,达成同样的成就。深度学习的出现极大地加速了这个过程。
回到CV的发展上来。诚然,按照当前数据收集和计算量提升的速度,或许再过足够长的时间,CV也能够跌跌撞撞地达到当前NLP的水平。不过我相信,在此之前,一定会有某项技术突破,加速CV赶超NLP的过程。而我们CV研究者的使命,就是找到这项技术,或者至少找对正确的方向。
对未来研究方向的展望经过上面的讨论,未来CV的pipeline已经有了雏形:基于交互环境的生成式预训练和指令微调方法。这未必是唯一的路线,只是在NLP的启发下催生出来的最有可能的路线。实现它的困难有很多,但只要认准了方向,当前的困难恰恰对应于最有前景的研究方向。
退一步说,如果上述pipeline在短期内难以实现,那么CV就应当尽可能吸收NLP的能力,以期提升通用能力。很显然,纯粹基于图像信号的CV研究将越来越少,融合语言的跨模态研究将成为绝对主流:只要使用了CLIP或者类似的多模态基础模型用于特征抽取,就相当于接受了跨模态的思想。在这条路线上,最重要的研究方向可以概括为“找到图像与自然语言的交互方式”,或者更进一步地说,“找到图像本身的语言”:这一点对于交互类任务也是至关重要的。
一些重要的研究方向包括:
【环境构建】新的三维表征方法,结合NeRF、点云等多种数据结构,目标是构建大规模、真实性强、可运动、可交互的具身环境。
【环境构建】智能体行为模拟,包括基于进化算法,演进智能体的行为模式。
【生成式预训练】新的自回归预训练方法,其中神经网络架构设计,需要追求预训练的效果而不是代理任务的精度。为了解决视觉信号的冗余性,动态压缩率可能是一个很好的指标。
【生成式预训练】图文生成算法,不仅能够辅助环境构建,还会成为预训练的评价指标。
【指令微调】以prompt形式统一各种类型的视觉任务,使得同一套计算模型能够适应尽可能多的任务。顺便,SAM提供了一种解耦的思路,证实了在弱化语义的前提下,分割基础单元的通用性很强。在传统框架下,我比较看好将复杂任务解耦成基本单元的做法。
【指令微调】定义新的人机交互方式,通过人类演示,收集足够的指令数据。
参考
^abcBubeckS,ChandrasekaranV,EldanR,etal.Sparksofartificialgeneralintelligence:Earlyexperimentswithgpt-4[J].arXivpreprintarXiv:2303.12712,2023.
^RombachR,BlattmannA,LorenzD,etal.High-resolutionimagesynthesiswithlatentdiffusionmodels[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2022:10684-10695.
^ZhangL,AgrawalaM.Addingconditionalcontroltotext-to-imagediffusionmodels[J].arXivpreprintarXiv:2302.05543,2023.
^abKirillovA,MintunE,RaviN,etal.Segmentanything[J].arXivpreprintarXiv:2304.02643,2023.
^GoertzelBArtificialgeneralintelligence[M].NewYork:springer,2007.
^KokkinosI.Ubernet:Trainingauniversalconvolutionalneuralnetworkforlow-,mid-,andhigh-levelvisionusingdiversedatasetsandlimitedmemory[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2017:6129-6138.
^RadfordA,KimJW,HallacyC,etal.Learningtransferablevisualmodelsfromnaturallanguagesupervision[C]//Internationalconferenceonmachinelearning.PMLR,2021:8748-8763.
^ReedS,ZolnaK,ParisottoE,etal.AGeneralistAgent[J].TransactionsonMachineLearningResearch.
^ChenT,SaxenaS,LiL,etal.Pix2seq:Alanguagemodelingframeworkforobjectdetection[J].arXivpreprintarXiv:2109.10852,2021.
^WangP,YangA,MenR,etal.Ofa:Unifyingarchitectures,tasks,andmodalitiesthroughasimplesequence-to-sequencelearningframework[C]//InternationalConferenceonMachineLearning.PMLR,2022:23318-23340.
^WangX,WangW,CaoY,etal.Imagesspeakinimages:Ageneralistpainterforin-contextvisuallearning[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2023:6830-6839.
^WangX,ZhangX,CaoY,etal.Seggpt:Segmentingeverythingincontext[J].arXivpreprintarXiv:2304.03284,2023.
^JohnsonJ,HariharanB,VanDerMaatenL,etal.Inferringandexecutingprogramsforvisualreasoning[C]//ProceedingsoftheIEEEinternationalconferenceoncomputervision.2017:2989-2998.
^LiJ,LiD,SavareseS,etal.Blip-2:Bootstrappinglanguage-imagepre-trainingwithfrozenimageencodersandlargelanguagemodels[J].arXivpreprintarXiv:2301.12597,2023.
^LiuH,LiC,WuQ,etal.Visualinstructiontuning[J].arXivpreprintarXiv:2304.08485,2023.
^ZhuD,ChenJ,ShenX,etal.Minigpt-4:Enhancingvision-languageunderstandingwithadvancedlargelanguagemodels[J].arXivpreprintarXiv:2304.10592,2023.
^MarrD.Vision:Acomputationalinvestigationintothehumanrepresentationandprocessingofvisualinformation[M].MITpress,2010.
^abSavvaM,KadianA,MaksymetsO,etal.Habitat:Aplatformforembodiedairesearch[C]//ProceedingsoftheIEEE/CVFinternationalconferenceoncomputervision.2019:9339-9347.
^abDeitkeM,VanderBiltE,HerrastiA,etal.Procthor:Large-scaleembodiedaiusingproceduralgeneration[J].arXivpreprintarXiv:2206.06994,2022.
^为了处理方便,人们把单词切分为sub-tokens,但依然存在不可分的基本单元。
^DriessD,XiaF,SajjadiMSM,etal.Palm-e:Anembodiedmultimodallanguagemodel[J].arXivpreprintarXiv:2303.03378,2023.
^KotarK,WalsmanA,MottaghiR.ENTL:EmbodiedNavigationTrajectoryLearner[J].arXivpreprintarXiv:2304.02639,2023.
^TangC,XieL,ZhangX,etal.Visualrecognitionbyrequest[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2023:15265-15274.
^想象一块冰逐渐熔化成水,或者一个黑色的方块逐渐变成白色。在这些过程中,往往存在某种(不准确的)量化边界,在经过这些边界以后,语义就发生了变化。但语义是离散的,而视觉信号的变化是连续的,在语义不变的范围内,视觉信号就体现出域间差异性。
(一)视频课程来了!
自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、多传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)
(扫码学习最新视频)
视频官网:www.zdjszx.com
(二)国内首个自动驾驶学习社区
近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!
(三)【自动驾驶之心】全栈技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;
添加汽车人助理微信邀请入群
备注:学校/公司+方向+昵称
通用人工智能离我们还有多远
编辑导语:在以前,人工智能是一个科幻的话题,但在今天,人工智能已经不再那么遥远。当下的一些场景中,我们都能寻觅到人工智能的影子,但目前的人工智能还存在着很多问题,它并不能真正代替人,所以离真正意义上的通用人工智能还很远。本文对人工智能展开探讨,寻觅通用人工智能的未来。
人工智能曾经是一个颇为科幻的话题。有人担心人工智能会取代人类,甚至会反人类。然而几年下来,我们发现人工智能并没有我们想象的那样智能。
“问题”究竟出在哪儿?“什么是人?”“什么是智能?”一、认识不到现实和理想的差距就会导致“泡沫”严格来说,人工智能的主流技术并不新,它经过对传统技术的反复迭代而来。
关于人工智能的发展现状,目前有“乐观论”“悲观论”“泡沫论”三种论调。
我经常会听到各种各样的误解,第一个误解就是认为人工智能是个新东西,是这几年冒出来的。事实上,人工智能(artificialintelligence)这个词正式变成公认的学科名词是在1956年美国的达特茅斯会议上。显然,这是距今已经挺久远的事情了。
至于现在被谈论很多的深度学习技能,前身就是人工神经网络(artificialneuralnetwork)。这个概念在上世纪60年代就被学界注意到了。
人工智能的奠基人之一阿兰·图灵生前也搞过一些粗浅的人工神经网络研究。这样算的话,这个技术至少可以追溯到上世纪40年代。
所以,严格来说,人工智能的主流技术并不新,它经过对传统技术的反复迭代而来。
1.乐观论这种论调描绘出了一个乌托邦般的场景:当你回到家中,所有的设备都能够通过全新的网络技术和物联网与你心有灵犀;汽车是不用驾驶的,你上了车以后,什么事都不用干,就可以把你带到目的地;沿途,你还可以和你的汽车交谈,就好像它是你的人类司机那样。
2.悲观论悲观论者更多是站在那些可能会丢掉工作的人的立场上,认为人工智能实在太厉害,会取代很多人的工作。到时,如果社会暂时又无法提供更多的新岗位,这怎么办?
3.泡沫论我的观点是泡沫论。“泡沫”不是指人工智能的未来一片黯淡,而是说在短期内,这项技术的发展还无法支撑得起很多人的梦想。
理想很丰满,技术目前还很“骨感”。如果你意识不到理想和现实之间的差距,就会导致泡沫。假如因为对人工智能持有乐观态度而到市场上去融资,就更需审慎考虑。
历史上确实有成功案例,比如IBM360计算机项目。
它的成功使计算机从过去那种非常笨重、只有高级科研单位才能买得起的状态,慢慢地变成办公室可以用的计算机,为个人PC的出现打下了基础。但失败的案例也很多。如果关于人工智能的融资计划都把未来描述得很美好,把饼画得特别大,最后也很可能会有问题。
我个人对人工智能未来发展的基本判断是——
人工智能对我们生活的改变不是全局性的、颠覆性的,而是局部的改进。
比如,在在线教育、养老陪护等领域,人工智能能促进一些变化,带来一些商机。但有些项目,比如自动驾驶,就很可能存在一些应予以审慎对待的泡沫。
我主张的“泡沫论”是建立在一些基本概念的界定上,比如“专用人工智能”和“通用人工智能”。
二、使用传统方法解决问题的能力下降是危险的李世石应该会泡面、会开车,在和AlphaGo下完棋以后他还能够接受媒体采访、谈谈自己的感受。但是,AlphaGo肯定不会开车,更不能在和李世石下完棋以后和人类、和媒体交流自己的所思所想。
现在的人工智能都是基于大数据的,它对小概率和偶然性事件缺乏应对机制。当它面对这个充满变动的世界时,就不知道该如何应对了。
如何区别“专用人工智能”和“通用人工智能”?
专用人工智能就是只能干一件事或两件事的人工智能,通用人工智能是指什么事都能干一些的人工智能。
举个例子来说,李世石是一位棋手,AlphaGo是一个围棋程序。如果我们把李世石看成一个智能系统的话,他就是通用智能系统。
因为他除了下棋,还能做许多其他事情,比如他应该会泡面、会开车,在和AlphaGo下完棋以后他还能够接受媒体采访、谈谈自己的感受。
但是,AlphaGo肯定不会开车,更不能在和李世石下完棋以后和人类、和媒体交流自己的所思所想。经过这样的对比,我们能明显看出专用人工智能的局限。
我们人类的特点是,在一件事上可能是专家,其他事也能干,只是干得没那么好。但是,专用人工智能就只能干专门的事情,其他的事情基本无法兼顾。仅从这一点来讲,专用人工智能和能力全面的通用人工智能之间的区别还是很大的。
我们现在看到的人工智能都是专用的,它们的制作思路都是按照专用人工智能的思路来做的,比如人脸识别和语音识别。
当前,人工智能通过卷积神经网络技术的进步,已经获得了一项重要能力,即可以同时通过人脸和声音来识别他人。但对于人工智能来说,基于神经网络的图像识别系统和语音识别系统是两回事。
现在很多人对人工智能的想象,是建立在“通用人工智能”之上的。
很多人喜欢看美剧,发现里面出现的一些机器人已经特别厉害。有的机器人不仅拥有人类的特征,还开始反抗人类。有人看了这样的故事以后就会展开联想:如果我们和这样的机器人一起生活,会受到怎样的威胁?
自然而然地,很多人对人工智能的思考就建立在了这类科幻影视作品的基础上。而科幻影视作品受众广、不需要具备太多科学素养就能看明白,很有传播力和影响力。
我有一个观点:软科幻看多了,要看一些硬科幻。硬科幻距离今天的科学比较近,对科学知识的运用更严谨。相比软科幻,硬科幻更适合起科普的作用,能够增强普通人对现实世界的思考能力和把握能力。
现在的人工智能都是基于大数据的,它对小概率和偶然性事件缺乏应对机制。当它面对这个充满变动的世界(比如新型病毒、未知规模的洪水等)时,就不知道该如何应对了。
所以,我担心的问题不是人工智能有了人的意识以后会与人对抗,而是人类过多依赖人工智能以后,头脑反而会变简单。
不要以为有了现代化的先进工具以后就可以放弃传统。举例来说。假设现在有两支军队对峙,双方都有能力使用最新的网络信息技术,但只要有一方攻破了对方的网络防线,另一方的信息基础设施就沦陷了。到时,只能转而采用最原始的办法(比如信鸽、鸡毛信等),来传递信息。
对人工智能充满合理想象本身并没有错,但如果我们将人工智能的能力想象得过于强大,同时又疏于保持用传统方法、传统智慧解决问题的能力,这就可能会将人类置于某种尴尬的境地。
三、为什么现在还发展不出通用人工智能通用人工智能系统的特点就是通用,既然是通用,就要处理全局性的问题。什么是全局性?就是拥有在不同的理论体系之间进行抉择的能力。
深度学习基于的神经网络技术用强大的机器海量计算掩盖了方法本身的“笨”。对于深度学习来说,如果有现成的数据会非常好办,但如果没有优质数据,靠它自己搜集数据就很成问题。
现在的“深度学习”技术,有望在短期内,达到通用人工智能的程度吗?
人们曾经想象能够有一种机器,不需要任何外界输入能量或者只需要一个初始能量,就可以不停地自动运动。在哲学家看来,这个设想经不起严格推敲,无法从根本上立得住。在我看来,通用人工智能大概也只能停留在设想阶段。
通用人工智能系统的特点是通用,就是拥有在不同的理论体系之间进行抉择的能力。不同的诉求之间往往存在冲突,而人类有能力在各种冲突之间想办法,找到一个可以平衡各种矛盾的中庸点。
举个大家比较好理解的例子。有一位家政员到雇主家里做事。如果雇主是一位知识分子,家里书特别多,他就可能会要求家政员尽量把书房打扫干净,但不能干净到书都找不到了。
家里书多的人都知道,书的易取性和整洁性往往是相互矛盾的。书收起来,家里固然更干净整洁了,但如果几本书同时在看,堆起来以后再找、再取就很耗费时间。
这时,究竟是追求整洁还是易取?这里面就有个平衡点。这个平衡点的抵达需要家政员和雇主之间长时间的磨合,却很难通过程序来设置。
任何一个综合系统都要具备处理各种复杂甚至突发情况的能力。其中有些情况甚至是非常极端、偶发的。比如,一辆自动驾驶汽车在道路上行驶。道路的左侧有一个路人在行走,道路的右侧有五个路人在行走,万一出现车速太快来不及刹车的情况,到时该往哪边拐?假设这个程序突然得到消息,左边的路人是我们国家一位非常重要的专家,它该如何选择?
很多人第一直觉会觉得专家更重要,但转念一想,每个人类个体的生命都是平等的。遇到这样的问题,人类会痛苦抉择、反复取舍。
换作是机器,问题就麻烦了。我们都知道,人工智能是基于一系列规则设置的,规则背后就是各种逻辑原则。一旦情况过于特殊或复杂,机器内部基于不同逻辑规则设置的程序之间就会打架。
我再举个例子。假设现在有一位外国小伙子到少林寺学武术,语言不通,怎么办?有个办法,那就是师父做一个动作,小伙子跟着做;如果他做对了,师父就微笑,做错了,师父就棒喝。通过这种方式,小伙子被棒喝以后,就知道自己做错了。但具体到底哪一点做得不对,如果师父不明示、不详解,他就需要猜、需要不断试错。这时语言的好处就很明显。如果彼此能够通晓对方的语言,师傅就能把包括武术规则在内的一整套内容都传授给他,帮助他理解,然后再由学生自己转化为行动。深度学习基于神经元网络的运作产生。神经元网络的运作,就类似于前面所说的那种比较笨的教学方法。
人类犯错以后的反省是基于道理和规则的。但系统不是,它遇到障碍以后的应对办法是调整各种参数,试错以后发现不对就再猜。它是通过大量的猜,慢慢地把事情往对的方向引。它的优势在于,可以在很短的时间里完成人类不可能完成的巨量猜测。
深度学习基于的神经网络技术就是用强大的机器海量计算掩盖了方法本身的“笨”。但问题是,对于深度学习来说,如果有现成的数据会非常好办,如果没有优质数据,靠它自己搜集数据就很成问题。
通用人工智能如果要处理全局性问题,需要搜集的数据就更复杂了。
目前的深度学习机制,其根本问题就是缺乏跨领域学习的能力。这正是人工智能无法通用化、全局化的根本所在。
在我们的日常生活中,不同的系统有不同的运作方式。国际象棋有国际象棋的下法,围棋有围棋的下法。人可以适应变化,要人工智能去适应这一点却非常难。
很多人会问,可不可以把各种专用的人工智能整合为一套通用的人工智能?
其中又有一个问题——协同。这就和企业运筹帷幄一样,需要各个团队、板块的协同合作,需要有一个能力全面的人来领导,而人工智能并不具备总体的调度、配置能力。
为了研究人工智能和人类智能还差在哪儿,一些专家提出了所谓的“卡特尔—霍恩—卡罗尔”三层智力模型。他们把通用智能分解成很多部分,比如流体智力、晶体智力、量化推理、读写能力、短期记忆、长期记忆、视觉处理和听觉处理等。
量化推理无非就是算术,读写能力就是你能不能看懂文章、读懂要点。晶体智力就好比老师现在给你一道题目,告诉你解法以后,看你能不能把做题的思路迁移到新的题目上。流体智力要求更高,相当大程度上,它强调的是一个灵活调用各种智识能力的状态。
至少在目前,人工智能不是根据人类智识能力的发展方向来发展的。长此以往,它的“拟人性”就很成问题,它离真正意义上的通用人工智能就还很远。
本文由@KING原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。
对话科学家|任福继院士:GPT尚未达到通用人工智能标准,仅是一枚工具
想象一下,你坐在电影院中观看一部情感系列电影。当你正被动人的电影情节吸引、情绪激荡之时,突然发现邻座拿着纸巾擦拭眼泪,甚至与你沟通交流的竟然不是人类,而是一个AI机器人,你会感到震惊吗?或者更有趣的是,人类是否能感受到机器的情感共鸣,甚至智能机器是否能理解人类的情绪并进而为人类的情绪宣泄提供通道乃至安慰?这些问题已然引发了业内外无数的探讨和联想。
“现在的人工智能模型主要是数据驱动,暴力训练模型的成本在高速增加,一味地追求参数的增多及模型变大是没有价值的,数据驱动的理论红利基本已消耗殆尽,必须要有新的研究范式。下一步最能引起科技界、产业界关注,以及改变人类生活方式的,就是情感计算。”——欧盟科学院院士,日本工程院院士,人工智能及情感智能机器人专家任福继在与搜狐科技对话中表示。
情感计算的概念是在1997年由MIT媒体实验室皮卡德教授提出。她在专著《情感计算》中表示,“情感计算是关于情感、有情感引发以及意图影响情感方面的计算”。情感计算的目的是赋予计算机感知、理解与表达情感的能力,从而使计算机能够与人更好地交流。近年来,情感计算是全球人工智能科学家研究重点方向之一,此前麻省理工研发的机器人能够对不同语言作出喜怒哀乐反应;IBM公司的“蓝眼计划”可使机器人了解人类的意图,当人类的眼睛看向电视时,机器获知人类想打开电视机,就向电视机发出开机指令。
任福继认为,很多大模型应用场景中都需要情感计算,例如老人与小孩的陪护,智慧社区等。没有情感的人工智能机器是冷冰冰的,也是推广不下去的。当搜狐科技好奇人工智能机器具备情感能力的时代到来需要多久,任福继回答,情感计算的实现难度远超于人工智能其它方面,近5年到10年内会有一些具备情感交互能力的产品出现,但让智能机器真正具备情感意识大概还需20至30年,预计到2049年左右会出现这种情感机器人。
谈及ChatGPT技术及人工智能模型下一阶段发展时,任福继对搜狐科技表示,ChatGPT目前还尚未真正达到通用人工智能标准,也不完全具备与人类一样的能力,它仅仅是一枚工具。但可以预见的是,AI在某些方面的创造力(比如组合、变形等)最终是会超越人类的。任福继强调,归根结底来说AI还是帮助人类变得更智慧了,之前是解放体力,而现在是解放和改善智力。
任福继表示,创新性将是下一阶段AI大模型发展的核心要素,相较于有生存压力的“创业派”和“大厂派”,更鼓励有三斗米保障的“学院派”多做一些创新的东西,在最终“从0到1”的创新过程中,更寄望于他们能够走出来一批人。
以下是对话实录(经整理编辑):
搜狐科技:您如何看待ChatGPT引发的人工智能热潮?ChatGPT是否算是技术革命?
任福继:ChatGPT从理论上说并无多少创新,引起轰动的原因还是它具备的智能涌现能力。ChatGPT目前还尚未真正达到通用人工智能标准,也不完全具备与人类一样的能力,它仅仅是一枚工具。
搜狐科技:在您看来,为什么ChatGPT类成果没有优先诞生于中国?
任福继:中国其实是在数据方面具备优势的,但大家对原始创新的概念还较薄弱,总认为没人先去走条路子出来,就不应去浪费时间和精力。
教育是一方面原因,硬式教育的模式导致创新的东西很少;另一方面在于环境,中国鼓励“从0到1”创新的机制还没有健全,尽管很重视也鼓励原始创新,但复杂的研究评价机制是不利于创新的。
搜狐科技:现在“大厂派”、“创业派”、及“学院派”纷纷跻身于大模型研发行列,您认为是否有必要做大模型?您更看好哪一派?
任福继:大模型要做,但每个人都去研发大模型肯定是没有必要的,比如已有很好的系统摆在面前了,再去跟在后面做是很难超越的,要做的应是瞄准好独特的专业领域,将好的模型当作工具利用起来。
相较于有生存压力的“创业派”和“大厂派”,更鼓励有三斗米保障的“学院派”多做一些创新的东西,在最终“从0到1”的创新过程中,更寄望于他们能够有一批人走出来。
搜狐科技:当下大模型不断涌现,您认为大模型下一阶段的突破点在于什么?
任福继:创新性是大模型下一阶段发展的核心要素。现在的人工智能模型主要是数据驱动,暴力训练模型的成本在高速增加,一味地追求参数的增多及模型变大是没有价值的,数据驱动的理论红利基本已消耗殆尽,必须要有新的研究范式。下一步最能引起科技界、产业界关注,以及改变人类生活方式的,就是情感计算。
很多大模型的应用场景都需要情感计算,例如老人和儿童的陪护,没有情感、冷冰冰的机器是无法进一步推广的。
搜狐科技:情感计算技术的实现难点在于什么?
任福继:情感计算的实现难度远超于人工智能其它方面,实现难点主要在于三个方面,其一是感知能力,需要让AI机器先感知到人类的情感变化;其二是认知能力,让AI机器感知情感后判断其属于哪种心理状况;第三点是表达能力,也就是让AI机器学习如何将情感表达出来。
搜狐科技:如果人工智能机器有了七情六欲,那应该怎样去约束它们的行为和决策以符合伦理和道德标准?
任福继:人类研发机器的目标是明确的——机器最终都是为人类服务,这是大前提。阿西莫夫机器人三大定律曾表示,其一,机器人不得伤害人类个体,或者目睹人类个体将遭受危险而袖手不管。其二,机器人必须服从人给予它的命令,当该命令与第一定律冲突时例外。最后,机器人在不违反第一、第二定律的情况下要尽可能保护自己的生存。
情感机器研发一定要遵从伦理原则,规程及监管制度应尽早制定。另一方面,在研发大模型中应设立基准线,负面的训练数据应尽量过滤掉。
搜狐科技:像哆啦A梦一样具备情感的智能机器人有可能实现吗?人工智能机器真正具备情感的时代到来还要多久?
任福继:是肯定可以实现的,近5年到10年内会有一些具备情感交互能力的产品出现,但让智能机器真正具备情感意识大概还需20至30年,预计到2049年左右会出现这种情感机器人。
搜狐科技:很多人担心人工智能的发展会对职场造成冲击,您怎么看这个问题?机器和人类究竟谁的创造力更强?
任福继:技术的革新会带来新的工种,人工智能工具可以帮助人类提升工作效率,但不会完全取代人类。从人类的范畴来看,人类具有高情商和高智商,因此具有更大的创造力;但从超越人类认知的宇宙范畴来看,人工智能或许最终会更具有创造力,只不过到目前为止的一些例子还仅体现在计算的基础上。比如一般下棋最多看十步以内,但机器能“看到”成百上千步,并能从中找出一些人类看不懂的依赖于计算得到的规则。
当前机器的自我繁殖能力已初步实现,我们之前也申请了专利叫作“机器人学校”,机器在几分钟之内就可以将上一辈机器的知识全部学习完毕,并传承下去。
搜狐科技:人工智能的发展像是打开了潘多拉魔盒,您认为人工智能让人类更智慧了,还是更懒惰了?
任福继:和过去比较起来,有了键盘以后很多人提笔忘字,有些能力看似退化了;但从未来来看,人工智能还是令人更聪明了。人工智能本质终究是人类的工具,原来是解放体力,现在是解放和改善智力。但是,人工智能的发展也对人类提出了更高的要求,例如在AI工具的支持下如何构建新的知识结构,如何有效地利用知识数据,如何附加更高层次的东西。涉及到教育方面包括教学体制和教学内容,一切都可能要改变。返回搜狐,查看更多