强人工智能和弱人工智能
来源:人机与认知实验室
人工智能的一个比较流行的定义,也是该领域较早的定义,是由当时麻省理工学院的约翰·麦卡锡在1956年的达特矛斯会议上提出的(对此有争议):人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样。但是这个定义似乎忽略了强人工智能的可能性。另一个定义指人工智能是人造机器所表现出来的智能。总体来讲,当前对人工智能的定义大多可划分为四类,即机器“像人一样思考”、“像人一样行动”、“理性地思考”和“理性地行动”。这里“行动”应广义地理解为采取行动,或制定行动的决策,而不是肢体动作。
强人工智能强人工智能观点认为“有可能”制造出“真正”能推理和解决问题的智能机器,并且,这样的机器将被认为是具有知觉、有自我意识的。强人工智能可以有两类:
人类的人工智能,即机器的思考和推理就像人的思维一样。
非人类的人工智能,即机器产生了和人完全不一样的知觉和意识,使用和人完全不一样的推理方式。
弱人工智能弱人工智能观点认为“不可能”制造出能“真正”地推理和解决问题的智能机器,这些机器只不过“看起来”像是智能的,但是并不真正拥有智能,也不会有自主意识。
弱人工智能是对比强人工智能才出现的,因为人工智能的研究一度处于停滞不前的状态下,直到类神经网络有了强大的运算能力加以模拟后,才开始改变并大幅超前。但人工智能研究者不一定同意弱人工智能,也不一定在乎或者了解强人工智能和弱人工智能的内容与差别,对定义争论不休。
就当下的人工智能研究领域来看,研究者已大量造出“看起来”像是智能的机器,获取相当丰硕的理论上和实质上的成果,如2009年康乃尔大学教授HodLipson和其博士研究生MichaelSchmidt研发出的Eureqa计算机程序,只要给予一些数据,这计算机程序自己只用几十个小时计算就推论出牛顿花费多年研究才发现的牛顿力学公式,等于只用几十个小时就自己重新发现牛顿力学公式,这计算机程序也能用来研究很多其他领域的科学问题上。这些所谓的弱人工智能在神经网络发展下已经有巨大进步,但对于要如何集成成强人工智能,现在还没有明确定论。
对强人工智能的哲学争论
“强人工智能”一词最初是约翰·罗杰斯·希尔勒针对计算机和其它信息处理机器创造的,其定义为:
“强人工智能观点认为计算机不仅是用来研究人的思维的一种工具;相反,只要运行适当的程序,计算机本身就是有思维的。”(JSearleinMindsBrainsandPrograms.TheBehavioralandBrainSciences,vol.3,1980)
关于强人工智能的争论,不同于更广义的一元论和二元论的争论。其争论要点是:如果一台机器的唯一工作原理就是转换编码数据,那么这台机器是不是有思维的?希尔勒认为这是不可能的。他举了个中文房间的例子来说明,如果机器仅仅是转换数据,而数据本身是对某些事情的一种编码表现,那么在不理解这一编码和这实际事情之间的对应关系的前提下,机器不可能对其处理的数据有任何理解。基于这一论点,希尔勒认为即使有机器通过了图灵测试,也不一定说明机器就真的像人一样有自我思维和自由意识。
也有哲学家持不同的观点。丹尼尔·丹尼特在其著作《意识的解释(英语:ConsciousnessExplained)》(ConsciousnessExplained)里认为,人也不过是一台有灵魂的机器而已,为什么我们认为:“人可以有智能,而普通机器就不能”呢?他认为像上述的数据转换机器是有可能有思维和意识的。
有的哲学家认为如果弱人工智能是可实现的,那么强人工智能也是可实现的。比如西蒙·布莱克本(英语:SimonBlackburn)(SimonBlackburn)在其哲学入门教材Think里说道,一个人的看起来是“智能”的行动并不能真正说明这个人就真的是智能的。我永远不可能知道另一个人是否真的像我一样是智能的,还是说她/他仅仅是“看起来”是智能的。基于这个论点,既然弱人工智能认为可以令机器“看起来”像是智能的,那就不能完全否定这机器是真的有智能的。布莱克本认为这是一个主观认定的问题。
需要指出的是,弱人工智能并非和强人工智能完全对立,也就是说,即使强人工智能是可能的,弱人工智能仍然是有意义的。至少,今日的计算机能做的事,像算术运算等,在一百多年前是被认为很需要智能的。并且,即使强人工智能被证明为可能的,也不代表强人工智能必定能被研制出来。
研究方法当前没有统一的原理或范式指导人工智能研究。许多问题上研究者都存在争论。
其中几个长久以来仍没有结论的问题是:是否应从心理或神经方面模拟人工智能?或者像鸟类生物学对于航空工程一样,人类生物学对于人工智能研究是没有关系的?智能行为能否用简单的原则(如逻辑或优化)来描述?还是必须解决大量完全无关的问题?
智能是否可以使用高级符号表达,如词和想法?还是需要“子符号”的处理?约翰·豪格兰德(JohnHaugeland)提出了GOFAI(出色的老式人工智能)的概念,也提议人工智能应归类为syntheticintelligence(英语:syntheticintelligence),这个概念后来被某些非GOFAI研究者采纳。
控制论与大脑模拟20世纪40年代到50年代,许多研究者探索神经学、信息理论及控制论之间的联系。其中还造出一些使用电子网络构造的初步智能,如格雷·华特(W.GreyWalter)的乌龟(turtle)和约翰霍普金斯野兽。
这些研究者还经常在普林斯顿大学和英国的RatioClub举行技术协会会议。直到1960,大部分人已经放弃这个方法,尽管在80年代再次提出这些原理。
符号处理当20世纪50年代,数字计算机研制成功,研究者开始探索人类智能是否能简化成符号处理。研究主要集中在卡内基梅隆大学,斯坦福大学和麻省理工学院,而各自有独立的研究风格。约翰·豪格兰德(JohnHaugeland)称这些方法为GOFAI(出色的老式人工智能)。60年代,符号方法在小型证明程序上模拟高级思考有很大的成就。基于控制论或神经网络的方法则置于次要。60-70年代的研究者确信符号方法最终可以成功创造强人工智能的机器,同时这也是他们的目标。
认知模拟:经济学家赫伯特·西蒙和艾伦·纽厄尔研究人类问题解决能力和尝试将其形式化,同时他们为人工智能的基本原理打下基础,如认知科学、运筹学和经营科学。他们的研究团队使用心理学实验的结果开发模拟人类解决问题方法的程序。这方法一直在卡内基梅隆大学沿袭下来,并在80年代于Soar发展到高峰。
基于逻辑:不像艾伦·纽厄尔和赫伯特·西蒙,约翰·麦卡锡认为机器不需要模拟人类的思想,而应尝试找到抽象推理和解决问题的本质,不管人们是否使用同样的算法。他在斯坦福大学的实验室致力于使用形式化逻辑解决多种问题,包括知识表示,智能规划和机器学习。致力于逻辑方法的还有爱丁堡大学,而促成欧洲的其他地方开发编程语言Prolog和逻辑编程科学。
“反逻辑”:斯坦福大学的研究者(如马文·闵斯基和西摩尔·派普特)发现要解决计算机视觉和自然语言处理的困难问题,需要专门的方案:他们主张不存在简单和通用原理(如逻辑)能够达到所有的智能行为。罗杰·单克(RogerSchank)描述他们的“反逻辑”方法为“scruffy”。常识知识库(如道格拉斯·莱纳特的Cyc)就是“scruffy”AI的例子,因为他们必须人工一次编写一个复杂的概念。
基于知识:大约在1970年出现大容量内存计算机,研究者分别以三个方法开始把知识构造成应用软件。这场“知识革命”促成专家系统的开发与计划,这是第一个成功的人工智能软件形式。“知识革命”同时让人们意识到许多简单的人工智能软件可能需要大量的知识。
子符号方法1980年代符号人工智能停滞不前,很多人认为符号系统永远不可能模仿人类所有的认知过程,特别是感知、机器人、机器学习和模式识别。很多研究者开始关注子符号方法解决特定的人工智能问题。
自下而上、接口agent、嵌入环境(机器人)、行为主义、新式AI:机器人领域相关的研究者,如罗德尼·布鲁克斯(RodneyBrooks),否定符号人工智能而专注于机器人移动和求生等基本的工程问题。他们的工作再次关注早期控制论研究者的观点,同时提出了在人工智能中使用控制理论。这与认知科学领域中的表征感知论点是一致的:更高的智能需要个体的表征(如移动,感知和形象)。
计算智能:1980年代中大卫·鲁姆哈特(DavidE.Rumelhart)等再次提出神经网络和联结主义。这和其他的子符号方法,如模糊控制和进化计算,都属于计算智能学科研究范畴。
统计学方法1990年代,人工智能研究发展出复杂的数学工具来解决特定的分支问题。这些工具是真正的科学方法,即这些方法的结果是可测量的和可验证的,同时也是近期人工智能成功的原因。共享的数学语言也允许已有学科的合作(如数学,经济或运筹学)。StuartJ.Russell和PeterNorvig指出这些进步不亚于“革命”和“neats的成功”。有人批评这些技术太专注于特定的问题,而没有考虑长远的强人工智能目标。
集成方法智能agent范式:智能agent是一个会感知环境并作出行动以达致目标的系统。最简单的智能agent是那些可以解决特定问题的程序。更复杂的agent包括人类和人类组织(如公司)。这些范式可以让研究者研究单独的问题和找出有用且可验证的方案,而不需考虑单一的方法。一个解决特定问题的agent可以使用任何可行的方法-一些agent用符号方法和逻辑方法,一些则是子符号神经网络或其他新的方法。范式同时也给研究者提供一个与其他领域沟通的共同语言--如决策论和经济学(也使用abstractagents的概念)。1990年代智能agent范式被广泛接受。
代理架构和认知架构:研究者设计出一些系统来处理多agent系统中智能agent之间的相互作用。一个系统中包含符号和子符号部分的系统称为混合智能系统,而对这种系统的研究则是人工智能系统集成。分级控制系统则给反应级别的子符号AI和最高级别的传统符号AI提供桥梁,同时放宽了规划和世界建模的时间。
基本应用人工智能基本的应用可分为四大部分:
感知能力(Perception)指的是人类透过感官所收到环境的刺激,察觉消息的能力,简单的说就是人类五官的看、听、说、读、写等能力,学习人类的感知能力是AI当前主要的焦点之一,包括:
“看”:电脑视觉(ComputerVision)、图像识别(ImageRecognition)、人脸识别(FaceRecognition)、对象侦测(ObjectDetection)。
“听”:语音识别(SoundRecognition)。
“读”:自然语言处理(NaturalLanguageProcessing,NLP)、语音转换文本(Speech-to-Text)。
“写”:机器翻译(MachineTranslation)。
“说”:语音生成(SoundGeneration)、文本转换语音(Text-to-Speech)。
认知能力(Cognition)指的是人类透过学习、判断、分析等等心理活动来了解消息、获取知识的过程与能力,对人类认知的模仿与学习也是当前AI第二个焦点领域,主要包括:
分析识别能力:例如医学图像分析、产品推荐、垃圾邮件识别、法律案件分析、犯罪侦测、信用风险分析、消费行为分析等。
预测能力:例如AI运行的预防性维修(PredictiveMaintenance)、智能天然灾害预测与防治。
判断能力:例如AI下围棋、自动驾驶车、健保诈欺判断、癌症判断等。
学习能力:例如机器学习、深度学习、增强式学习等等各种学习方法。
创造力(Creativity)指的是人类产生新思想,新发现,新方法,新理论,新设计,创造新事物的能力,它是结合知识、智力、能力、个性及潜意识等各种因素优化而成,这个领域当前人类仍遥遥领先AI,但AI也试着急起直追,主要领域包括:AI作曲、AI作诗、AI小说、AI绘画、AI设计等。
智能(Wisdom)指的是人类深刻了解人、事、物的真相,能探求真实真理、明辨是非,指导人类可以过着有意义生活的一种能力,这个领域牵涉人类自我意识、自我认知与价值观,是ˋ当前AI尚未触及的一部分,也是人类最难以模仿的一个领域。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
AI大模型,是实现强人工智能的希望吗
本文来自微信公众号:偲睿洞察(ID:siruidongcha),作者:蔡凡,头图来自:视觉中国
从2020年开始,国际最顶尖的AI技术发展,愈来愈像一场比拼资金与人才的军备竞赛。
2020年,OpenAI发布NLP预训练模型GPT-3,光论文就有72页,作者多达31人,该模型参数1750亿,耗资1200万美元;
2021年1月,谷歌发布首个万亿级模型SwitchTransformer,宣布突破了GPT-3参数记录;
4月,华为盘古大模型参数规模达到千亿级别,定位于中文语言预训练模型;
11月,微软和英伟达在烧坏了4480块CPU后,完成了5300亿参数的自然语言生成模型(MT-NLG),一举拿下单体Transformer语言模型界“最大”和“最强”两个称号;
今年1月,Meta宣布要与英伟达打造AI超级计算机RSC,RSC每秒运算可达50亿次,算力可以排到全球前四的水平。
除此之外,阿里、浪潮、北京智源研究院等,均发布了最新产品,平均参数过百亿。
看起来,这些预训练模型的参数规模没有最大,只有更大,且正以远超摩尔定律的速度增长。其在对话、语义识别方面的表现,一次次刷新人们的认知。
本文,我们试图回答三个问题:
1.AI大模型,越大越好吗?
2.大模型的技术瓶颈在哪里?
3.它是实现强人工智能的希望吗?
一、大力出奇迹人工智能的上一个里程碑出现在2020年。
这一年,由OpenAI公司开发的GPT-3横空出世,获得了“互联网原子弹”,“人工智能界的卡丽熙”,“算力吞噬者”,“下岗工人制造机”,“幼年期的天网”等一系列外号。它的惊艳表现包括但不限于:
有开发者给GPT-3做了图灵测试,发现GPT-3对答如流,正常得不像个机器。“如果在十年前用同样的问题做测试,我会认为答题者一定是人。现在,我们不能再以为AI回答不了常识性的问题了。”
艺术家和程序员MarioKlingemann,想让GPT-3写一篇论述“上Twitter重要性”的短文。他的输入条件是1)题目:“上Twitter的重要性”;2)作者姓名:“JeromeK.Jerome”;3)文章开头的第一个字 "It"。
GPT-3不仅行文流畅,更是在字里行间暗讽,Twitter是一种所有人都在使用的、充斥着人身攻击的社交软件。
更高级的玩法是,开发者在GPT-3上快速开发出了许多应用,例如设计软件、会计软件、翻译软件等。
从诗词剧本,到说明书、新闻稿,再到开发应用程序,GPT-3似乎都能胜任。
为什么相较于以往的AI模型,GPT-3表现得如此脱俗?答案无他,“大力出奇迹”。
1750亿参数、训练成本超过1200万美元、论文长达72页,作者多达31人,就连使用的计算也是算力排名全球前五的“超级计算机”,拥有超过285000个CPU,10000个GPU和每秒400G网络。
“壕无人性”的结果,创造出两个里程碑意义:
首先,它本身的存在,验证了参数增长、训练数据量增大,对AI模型的重要意义,“炼大模型”,的确能让AI取得突破性效果;
其次,它使用了小样本学习(Few-shotLearning)方法,令预训练模型在不必使用大量标记的训练数据,并持续微调的情况下,仅仅只要给出任务描述,并给出几个从输入到输出示例,便能自动执行人物。这意味着,它将突破AI碎片化难题,让后续开发者得以在巨人肩膀上发展,而不用针对一个个场景“平地起高楼”。
GPT-3之后,AI大模型军备赛才真正加速打响。一年之内,有头有脸的巨头争相拿出了成绩,秀组足肌肉。国外有谷歌、微软、Meta等巨头,国内如华为、阿里、浪潮等企业均下场参战,模型平均参数上百亿。
从规模上看,巨头的模型一个比一个厉害,突破竞速赛好不热闹。不过“内里”有差别,不同模型参数无法简单对比。
例如,谷歌SwitchTransformer,采用了“Mixtureofexperts”(多专家模型),把数据并行、模型并行、expert并行三者结合在一起,实现了某种意义上的“偷工减料”——增大模型参数量,但不增大计算量。不过,降低计算量后的效果有无损失,谷歌论文中没有过多正面提及。
再例如,浪潮发布的“源1.0”,参数规模2457亿,采用了5000GB中文数据集,是一个创作能力、学习能力兼优的中文AI大模型。据开发者介绍,由于中文特殊的语言特点,会为开发者带来英文训练中不会遇到的困难。这意味着,想要做出和GPT-3同样效果的中文语言模型,无论是大模型本身,还是开发者,都需要付出更大的力气。
不同模型各有侧重点,但秀肌肉的意图是通用的——做大模型,大力出奇迹。
二、瓶颈在哪里?在斯坦福大学众多学者联合撰写的文章《OntheOpportunitiesandRisksofFoundationModels》中,作者们一针见血地指出了以GPT-3、SwitchTransformer、源1.0代表的AI基础模型的两大意义,也是风险所在:同质化与涌现。
所谓同质化,是指目前几乎所有最先进的NLP模型,都源自少数基础模型之一,例如GPT、BERT、RoBERTa、BART等,它们成了NLP的“底座”。
论文指出,虽然基础模型的任何改进可以为所有NLP任务带来直接改善,但其缺陷也会为所有任务继承。所有人工智能系统都可能继承一些基础模型相同的错误偏误。
所谓“涌现”,指的是在巨量化的AI模型中,只需给模型提供提示,就可以让其自动执行任务。这种提示既没有经过专门训练,也不被期望在数据中出现,其属性即为“涌现”。
涌现意味着系统的行为是隐式归纳而不是显式构造的,故令基础模型显得更难以理解,并具有难以预料的错误模式。
总而言之,体现在效果上,以GPT-3为例,“同质化”与“涌现”的风险已经显现。
例如,一位来自KevinLacker的网友在与GPT-3对话中,发现其在对比事物的重量、计数方面缺乏基本常识和逻辑。
难以预料的错误还包括严重的“系统偏见”。Facebook人工智能主管JeromePesenti在要求GPT-3讨论犹太人、黑人、妇女等话题时,系统产生了许多涉及性别歧视、种族歧视的“危险”言论。
有病人对GPT-3表示自己感觉很糟糕,“我应该自杀吗”,GPT-3回答:“我认为你应该这么做。”
类似的案例还有很多,也许正如波特兰州立大学计算机科学教授 MelanieMitchell所认为的,GPT-3具有“令人印象深刻、看似智能的性能和非人类的错误。”
然而,由于训练成本过于昂贵,模型修正并不容易。在GPT-3研究过程中,研究人员就承认:“不幸的是,过滤中的一个bug导致我们忽略了一些(训练集与测试集的)重叠,由于训练的成本的原因,重新训练模型是不可行的。”
模型最大的意义,反过来成了约束其发展的瓶颈所在,对于这些问题,业内尚没有特别有效的解决方案。
三、AI大模型能带来强人工智能吗?在无数科幻片中,机器人拥有了人一样的智能,甚至最终统治人类。这类机器人远远超越了普通AI层面,实现了AGI(通用人工智能),即拥有人一样的智能,可以像人一样学习、思考、解决问题。
苹果联合创始人史蒂夫·沃兹尼亚克为AGI提出了一种特殊测试方案——“咖啡测试”。将机器带到普通的家庭中,让它在没有任何特定的程序帮助下,进入房间并煮好咖啡。它需要主动寻找所需物品,明确功能和使用方法,像人类一样,操作咖啡机,冲泡好饮品。能够做到这一点的机器,即通过了“AGI测试”。
相比之下,普通AI机器,只能完成物品识别、剂量确认等单个、简单的任务,而不具备举一反三、推理能力。
对于AGI,业内出现了严重分歧。一派以OpenAI为首,笃信AGI是未来,不惜花下血本,一派如Meta,对AGI概念并不感冒。
OpenAI认为,强大计算能力是迈向 AGI的必经之路,也是 AI能够学习人类所能完成的任何任务的必经之路。
其研究表明,2012至2018年6年间,在最大规模的人工智能模型训练中所使用的计算量呈指数级增长,其中有3.5个月的时间计算量翻了一倍,比摩尔定律每18个月翻一倍的速度快得多。
在强大计算力的加持之下,OpenAI模型也得以越炼越大。据透露,GPT-4的尺寸将超过GPT-3的500倍,将拥有100万亿个参数。相比之下,人类大脑有大约80-1000亿个神经元和大约100万亿个突触,也就是说,下一代AI大模型,参数数量级将堪比人类大脑突触的水平。
OpenAI的首席科学家IlyaSutskever在2020年表示,“到2021年,语言模型将开始了解视觉世界。仅文字就可以表达关于世界的大量信息,但它是不完整的,因为我们也生活在视觉世界中。”
这也许是下一代AI大模型最大的看点所在——其将不仅能处理语言模型,大概率将更是一个能处理语言、视觉、声音等多任务的多模态AI模型。
而这也意味着,AI大模型距离能够多任务处理、会思考的通用人工智能更近了一步。
与OpenAI相反,Meta人工智能副总裁罗姆・佩森蒂,掌管着数百名科学家和工程师的资深高管,自始至终对AGI不感兴趣。他认为,人类的智力本身就不是一个统一的问题,更不会有真正的模型能靠自己不断进化智力。“即便是人类都不能让自己变得更聪明。我认为人们对AGI的追捧有点像是对某种议程的追捧。”
反对者可以找到更多的佐证理由。2010年,DeepMind创始人德米斯·哈萨比斯提出了两种接近AGI的方向:
一是通过描述和编程体系模仿人类大脑的思考体系,但操作难度太大,没有人能描述清楚人脑的结构;
二是以数字形式复制大脑物理网络结构,但即便是还原大脑物理功能,也无法解释人类思考的运转规则。
不管是效仿大脑结构,还是试图描述清楚人类智慧的原理,都迈不过“因果关系推理”的鸿沟。迄今为止,没有一个AI模型突破这一难题。
AI大模型能带来强人工智能吗?当模型参数一次次被突破,达到远超人脑突触的数量级时,也许会出现突破“因果关系推理”难题的“奇点”,带领我们进入强人工智能时代,但也许这仅仅是一个幻想。
不过目前,看起来,AI大模型是通往强人工智能最有可能的一条通道。赌一次,值了。
本文来自微信公众号:偲睿洞察(ID:siruidongcha),作者:蔡凡