强人工智能崛起引发新一轮AI备战升级
人工智能实验室OpenAI成立于2015年,是一个目前由非盈利向盈利过渡的商业组织,其创始人埃隆•马斯克和山姆•阿尔特曼创办动机是出于对强人工智能潜在风险的担忧。2016年OpenAI发布了机器学习公测平台,此后每年花费高昂资金用于训练,直至ChatGPT发布。
发布之初,ChatGPT的表现虽然亮眼但并非臻于完美,经使用者大量测试发现,一些专业领域知识给出的反馈仍存在事实准确性参差不齐的缺陷,其模型训练结果被认为需要进一步校正。
●强人工智能应用兴起与现状
这些年,人工智能领域的分支以人工神经网络为架构的深度学习发展迅速,这主要得益于全球云计算市场膨胀、基础设施数量逐年扩大带来的算力资源总量的快速上升。深度学习有赖于并行分布式计算,而并行计算的技术路线是人工智能领域近十年来得以突破瓶颈和超越以往技术形态的业界共识。
在此共识之下的成果,ChatGPT这类文本应用只是其中之一,这两年还有AI绘画、AI音乐,甚至AI3D建模的出现,无不意味着有着推理和解决问题能力的强人工智能技术形态初现端倪。
比如2022年8月发布的文本生成图像模型StableDiffusion,它根据用户给出的文字描述生成相应的图像,也可以用于绘制和修补图像。StableDiffusion在一个公开的数据集LAION-5B上训练模型,而LAION-5B至少包含了50亿个图像-文本数据对。除此之外,还有DiscoDiffusion、Midjourney等AI绘画工具也与之类似。
再比如可以从文本描述中生成高保真音乐的模型MusicLM。例如用户输入“一段吉他即兴演奏搭配平静的小提琴旋律”,MusicLM会将文本描述条件按过程和层次建立序列并建模任务,最终生成可长达几分钟的24kHz音频文件。还有同样出彩的AI3D建模方面,但因过程复杂目前暂未出现以文字生成样本的产品。
这些强人工智能工具由于训练所用模型依赖海量互联网已有数据,也面临着著作权争议和道德伦理方面的负面影响。由AI侵权引发的版权诉讼案件正在逐年增加,不久前代码自动生成工具Copilot侵权案尚未落定,ChatGPT在教育界又引起论文作弊与学术道德的争议。
●强人工智能产品市场格局和未来走向
业界在经历疫情萧条期和元宇宙概念虚火之后,这种新形态的强人工智能产品落地确实给了市场一针强心,特别是2023年以来,人工智能概念板块普遍景气扬升。新的AI项目研发落地吸引着科技巨头们纷纷入场布局,由于强人工智能项目研发所需投入的模型训练经费高昂,它们也急需尽快获得大型科技公司的融资和算力资源的支持。比如2017年OpenAI仅在云计算资源上就花费790万美元,占其总支出的四分之一;而AI绘图StableDiffusion在亚马逊云计算平台上训练共15万个GPU小时,花费成本60万美元。
由于新的AI产品落地时间不长,强人工智能市场仍在初期形成当中,这一波由Copilot、和ChatGPT两种新的AI产品形态带起的风口,在当前市场格局中走在最前面的仍然是微软。微软于2019年7月率先投资OpenAI10亿美元,为之提供Azure云的计算训练资源,后续取得该技术的独家授权。2023年初微软跟进投资第二笔据报道为100美元资金,随后旋即宣布旗下Bing搜索引入ChatGPT,强调集成了AI的浏览器Edge+搜索Bing的全新产品矩阵,旨在对谷歌互联网业务的弯道超车。
由此可见,当前强人工智能技术初级形态以及其所代表的种种落地产品,与上一代人工智能技术相较确实令该领域的发展耳目一新,但也存在明显需要校正的算法缺陷,以及在涉及训练源的版权、学术道德、网络安全等方面的批评与风险。在优势与挑战并存的同时,未来强人工智能技术走向将更趋明朗,相信更多AI产品将在新的消费级领域涌现。
文/陈徐毅高级工程师,科技专栏作者,中国计算机学会会员。
本文已刊发于《中关村》第238期返回搜狐,查看更多
ChatGPT:强人工智能时代的里程碑
■ 史爱武
ChatGPT标志的强人工智能已到来,科幻电影描绘的超人工智能还会远吗?3月29日,由约书亚·本吉奥、埃隆·马斯克、尤瓦尔·赫拉利等超千人联名发表公开信,呼吁所有AI实验室立即暂停训练比GPT-4更强大的AI系统,为期至少6个月,以确保人类能够有效管理其风险。AI的发展无人可以阻挡,在它无穷的潜力面前,也没人知道它会将人类文明推向何方。
从去年11月ChatGPT发布开始,到微软将其整合到Bing搜索引擎和Edge浏览器中,再到GPT-4火速上线,ChatGPT在开年几个月的火爆程度令人难以想象,俨然是一场全球的AI科技狂欢。科技巨头竞相布局拼产品,全球股市相关概念股也是全线飘红,吃瓜群众朋友圈持续刷屏,各种新旧媒体也是乐此不疲追新闻……而上一波这样的全球科技热潮却是2021年3月美国游戏公司Roblox上市所引爆的元宇宙概念。ChatGPT吸引了全球各界的关注与讨论,也标志着强人工智能时代的来临。
弱人工智能、强人工智能
和超人工智能
人工智能通常是指机器智能,让机器实现类似乃至超越人类感知、认知、行为等智能的系统。一般来说,人工智能分成弱人工智能、强人工智能和超人工智能三大类。
弱人工智能:擅长专有或特定技能的人工智能,也叫专业人工智能。比如战胜世界围棋冠军的人工智能AlphaGo,它只会下围棋,如果让它下国际象棋或分辨一下人脸,它就不知道怎么做了。目前的人工智能绝大多数都是弱人工智能。
强人工智能:是指在各方面都能和人类比肩的人工智能,这是类似人类级别的人工智能,也叫通用人工智能。人类能干的很多脑力活,它也能干,创造强人工智能比创造弱人工智能难得多,ChatGPT就是强人工智能的一个里程碑。
超人工智能:知名人工智能思想家Nick Bostrom把超级智能定义为“在几乎所有领域都比最聪明的人类大脑都聪明很多,包括科学创新、通识和社交技能”。超人工智能现在还不存在,很多人也希望它永远不要存在,担心它可能像好莱坞科幻大片里的超级AI机器人一样给人类带来一些威胁或者颠覆。
我们现在处于一个充满弱人工智能的世界,扫地机器人是帮助我们打扫卫生的弱人工智能;百度翻译是帮助我们翻译英文的弱人工智能,等等。这些弱人工智能的不断创新都是迈向强人工智能和超人工智能的进步。人工智能科学家Aaron Saenz说过,现在的弱人工智能就像地球早期软泥中的氨基酸,可能突然之间就形成了生命。
ChatGPT:AIGC技术的
文本生成典型应用
人工智能生产内容AIGC(AI-Generated Content)最基本的能力是生成内容,包括文本、图像、视频、代码或者几种媒介类型转换形成的“多模态内容”。传统AI侧重于根据已有内容的分析能力,现在的AI(特别是AIGC)基于训练数据和生成算法模型可以自主生成各种形式的内容和数据。生成算法、预训练深度模型、多模态等AI技术的创新和融合催生了AIGC的大爆发。2022年,Stable Diffusion、DALL-E 2等通过文字生成图片的AIGC模型风行一时;ChatGPT能够回答问题、生成代码、构思剧本和小说,将人机对话推向新高度。具体而言,ChatGPT能理解并生成文字,属于AIGC技术应用中的文本生成应用模型。
ChatGPT是一款由美国OpenAI公司于2022年11月发布的自然语言处理人机交互应用,是迄今为止人工智能领域最成功的产品和历史上用户增长速度最快的应用程序。ChatGPT是“Chat Generative Pre-trained Transformer”的缩写,Chat是聊天的意思,GPT是生成式预训练语言模型。ChatGPT其实就是基于GPT-3.5神经网络架构,然后利用人工微调升级的一个新语言模型。它拥有接近人类水平的语言理解和文本生成能力,尤其是它会通过连接包含真实世界中的对话等大量的语料库来训练模型,还能根据聊天的上下文进行互动,真正像人类一样聊天交流。ChatGPT不单是聊天机器人,还能完成写邮件、编辑视频脚本、设计文案、翻译文本、开发代码等文本生成式任务。
ChatGPT的出现标志着强人工智能的来临,是里程碑式的技术进步,将引发新一轮人工智能热潮。毋庸置疑,ChatGPT的发展也应归功于人工智能的三要素——数据、算法和算力,更是依赖大数据、大模型、大算力而发展起来的。
数据:ChatGPT的数据集可分为六类,分别是维基百科、书籍、期刊、Reddit链接、Common Crawl和其他数据集。其中,Reddit链接是指从社交媒体平台Reddit所有出站链接网络中抓取的数据,代表了流行内容的风向标;Common Crawl是2008年至今的一个网站抓取的大型数据集,包含来自不同语言、不同领域的原始网页、元数据和文本提取;其他数据集由GitHub等代码数据集、StackExchange等对话论坛和视频字幕数据集组成。根据2020年OpenAI发布的关于GPT-3模型论文,所用的主要训练数据集大小为753GB,包含4990亿Token(一个Token指的是响应请求所需的最小文本单位)。
算法:ChatGPT的卓越表现得益于其背后多项核心算法的支持和配合,包括作为其实现基础的Transformer语言模型、激发出其蕴含知识的提示学习和指令精调Prompt/Instruction Tuning算法、其涌现出的思维链能力COT、以及确保其与人类意图对齐的基于人类反馈的强化学习算法RLHF。其中,最基础的模型是基于Transformer的预训练语言模型GPT,Transformer是一种基于自注意力机制的深度神经网络模型,可以高效并行地处理序列数据。原始的Transformer模型包含编码器和解码器两个关键组件。编码器用于将输入序列映射到一组中间表示,解码器则将中间表示转换为目标序列。编码器和解码器都由多层的注意力模块和前馈神经网络模块组成。其中自注意力模块可以学习序列中不同位置之间的依赖关系,即在处理每个位置的信息时,模型会考虑序列中其他所有位置上的信息。GPT系列模型GPT-3最显著的特点就是大,一方面是模型规模大,参数多,达到1750亿个参数;另一方面是训练过程中使用到的数据集规模大,达到45TB。在这样的模型规模与数据量下,GPT-3在多个任务上均展现出了非常优异的性能。
算力:随着ChatGPT的模型参数量指数级增长和训练数据集规模化扩张,算力需求也是持续增加。据报道,ChatGPT的模型训练使用了微软专门建设的、由1万个V100 GPU组成的高性能集群AI计算系统,而训练消耗的总算力约为3640PF-days(即假如每秒计算一千万亿次,需要计算3640天),需要7~8个投资规模30亿、算力500P(1P相当于每秒运算一千万亿次)的数据中心才能支撑——这还只是模型训练阶段的算力需求,真实运行过程中的算力需求更为惊人。OpenAI宣布,GPT-5将在2024 年底左右推出,它的参数量为GPT-3的100倍,算力需求为 GPT-3的200-400倍。随着ChatGPT用户和应用范围的持续扩大,数据处理压力不断增大,算力需求更是飙升。
ChatGPT带来的机遇与挑战
ChatGPT时代充满了机遇与挑战。新技术解放了人类繁杂重复工作,让人将宝贵的时间精力转移到更多具有创造性、想象力和人性化的工作上,人均生产效率会持续提高。未来太多的工作岗位也会因为ChatGPT而缩减甚至被大部分替代,如一些重复性和低层次的工作(数据录入员、仓库人员、银行柜员等);初级创意工作(文案设计师、平面设计师、初级编程人员等),等等。并非所有岗位都可能被取代,需要个人情感、智力和创造力的许多工作是ChatGPT为代表的人工智能技术目前无法模拟或完全替代的。人工智能技术替代的不是人类整体,而是不愿意学习提升的那类人。换言之,它不是替代我们,而是促使我们更好地学习、进化,为我们赋能。
ChatGPT的出现产生了轰动效应,也给我们带来了诸多挑战。在教育和学术领域,为了防止学术欺诈和剽窃,巴黎政治学院、香港大学等高校宣布禁止师生在教学活动中使用ChatGPT等AI工具。《科学》《自然》等多家期刊也发表声明,不接受论文将ChatGPT列为“合著者”。2023年3月,OpenAI发布声明,由于开源库中存在漏洞导致一些用户可以看到另一些用户的聊天记录标题,ChatGPT临时下线。同月,意大利数据保护机构宣布,对OpenAI公司非法收集用户信息展开调查,并禁止使用ChatGPT;韩国三星内部发生三起涉及ChatGPT误用与滥用案例,包括两起“设备信息泄露”和一起“会议内容泄露”。
ChatGPT标志的强人工智能已到来,科幻电影描绘的超人工智能还会远吗?3月29日,由约书亚·本吉奥(图灵奖得主、深度学习三巨头之一)、埃隆·马斯克、尤瓦尔·赫拉利(《人类简史》作者)等超千人联名发表公开信,呼吁所有AI实验室立即暂停训练比GPT-4更强大的AI系统,为期至少6个月,以确保人类能够有效管理其风险。目前来看,这封公开信应该不能阻止AI飞速发展的脚步。AI的发展无人可以阻挡,在它无穷的潜力面前,也没人知道它会将人类文明推向何方。
AI大模型,是实现强人工智能的希望吗
从2020年开始,国际最顶尖的AI技术发展,愈来愈像一场比拼资金与人才的军备竞赛。
2020年,OpenAI发布NLP预训练模型GPT-3,光论文就有72页,作者多达31人,该模型参数1750亿,耗资1200万美元;
2021年1月,谷歌发布首个万亿级模型SwitchTransformer,宣布突破了GPT-3参数记录;
4月,华为盘古大模型参数规模达到千亿级别,定位于中文语言预训练模型;
11月,微软和英伟达在烧坏了4480块CPU后,完成了5300亿参数的自然语言生成模型(MT-NLG),一举拿下单体Transformer语言模型界“最大”和“最强”两个称号;
今年1月,Meta宣布要与英伟达打造AI超级计算机RSC,RSC每秒运算可达50亿次,算力可以排到全球前四的水平。
除此之外,阿里、浪潮、北京智源研究院等,均发布了最新产品,平均参数过百亿。
看起来,这些预训练模型的参数规模没有最大,只有更大,且正以远超摩尔定律的速度增长。其在对话、语义识别方面的表现,一次次刷新人们的认知。
本文,我们试图回答三个问题:
1.AI大模型,越大越好吗?
2.大模型的技术瓶颈在哪里?
3.它是实现强人工智能的希望吗?
一、大力出奇迹
人工智能的上一个里程碑出现在2020年。
这一年,由OpenAI公司开发的GPT-3横空出世,获得了“互联网原子弹”,“人工智能界的卡丽熙”,“算力吞噬者”,“下岗工人制造机”,“幼年期的天网”等一系列外号。它的惊艳表现包括但不限于:
有开发者给GPT-3做了图灵测试,发现GPT-3对答如流,正常得不像个机器。“如果在十年前用同样的问题做测试,我会认为答题者一定是人。现在,我们不能再以为AI回答不了常识性的问题了。”
艺术家和程序员MarioKlingemann,想让GPT-3写一篇论述“上Twitter重要性”的短文。他的输入条件是1)题目:“上Twitter的重要性”;2)作者姓名:“JeromeK.Jerome”;3)文章开头的第一个字"It"。
GPT-3不仅行文流畅,更是在字里行间暗讽,Twitter是一种所有人都在使用的、充斥着人身攻击的社交软件。
更高级的玩法是,开发者在GPT-3上快速开发出了许多应用,例如设计软件、会计软件、翻译软件等。
从诗词剧本,到说明书、新闻稿,再到开发应用程序,GPT-3似乎都能胜任。
为什么相较于以往的AI模型,GPT-3表现得如此脱俗?答案无他,“大力出奇迹”。
1750亿参数、训练成本超过1200万美元、论文长达72页,作者多达31人,就连使用的计算也是算力排名全球前五的“超级计算机”,拥有超过285000个CPU,10000个GPU和每秒400G网络。
“壕无人性”的结果,创造出两个里程碑意义:
首先,它本身的存在,验证了参数增长、训练数据量增大,对AI模型的重要意义,“炼大模型”,的确能让AI取得突破性效果;
其次,它使用了小样本学习(Few-shotLearning)方法,令预训练模型在不必使用大量标记的训练数据,并持续微调的情况下,仅仅只要给出任务描述,并给出几个从输入到输出示例,便能自动执行人物。这意味着,它将突破AI碎片化难题,让后续开发者得以在巨人肩膀上发展,而不用针对一个个场景“平地起高楼”。
GPT-3之后,AI大模型军备赛才真正加速打响。一年之内,有头有脸的巨头争相拿出了成绩,秀组足肌肉。国外有谷歌、微软、Meta等巨头,国内如华为、阿里、浪潮等企业均下场参战,模型平均参数上百亿。
从规模上看,巨头的模型一个比一个厉害,突破竞速赛好不热闹。不过“内里”有差别,不同模型参数无法简单对比。
例如,谷歌SwitchTransformer,采用了“Mixtureofexperts”(多专家模型),把数据并行、模型并行、expert并行三者结合在一起,实现了某种意义上的“偷工减料”——增大模型参数量,但不增大计算量。不过,降低计算量后的效果有无损失,谷歌论文中没有过多正面提及。
再例如,浪潮发布的“源1.0”,参数规模2457亿,采用了5000GB中文数据集,是一个创作能力、学习能力兼优的中文AI大模型。据开发者介绍,由于中文特殊的语言特点,会为开发者带来英文训练中不会遇到的困难。这意味着,想要做出和GPT-3同样效果的中文语言模型,无论是大模型本身,还是开发者,都需要付出更大的力气。
不同模型各有侧重点,但秀肌肉的意图是通用的——做大模型,大力出奇迹。
二、瓶颈在哪里?
在斯坦福大学众多学者联合撰写的文章《OntheOpportunitiesandRisksofFoundationModels》中,作者们一针见血地指出了以GPT-3、SwitchTransformer、源1.0代表的AI基础模型的两大意义,也是风险所在:同质化与涌现。
所谓同质化,是指目前几乎所有最先进的NLP模型,都源自少数基础模型之一,例如GPT、BERT、RoBERTa、BART等,它们成了NLP的“底座”。
论文指出,虽然基础模型的任何改进可以为所有NLP任务带来直接改善,但其缺陷也会为所有任务继承。所有人工智能系统都可能继承一些基础模型相同的错误偏误。
所谓“涌现”,指的是在巨量化的AI模型中,只需给模型提供提示,就可以让其自动执行任务。这种提示既没有经过专门训练,也不被期望在数据中出现,其属性即为“涌现”。
涌现意味着系统的行为是隐式归纳而不是显式构造的,故令基础模型显得更难以理解,并具有难以预料的错误模式。
总而言之,体现在效果上,以GPT-3为例,“同质化”与“涌现”的风险已经显现。
例如,一位来自KevinLacker的网友在与GPT-3对话中,发现其在对比事物的重量、计数方面缺乏基本常识和逻辑。
难以预料的错误还包括严重的“系统偏见”。Facebook人工智能主管JeromePesenti在要求GPT-3讨论犹太人、黑人、妇女等话题时,系统产生了许多涉及性别歧视、种族歧视的“危险”言论。
有病人对GPT-3表示自己感觉很糟糕,“我应该自杀吗”,GPT-3回答:“我认为你应该这么做。”
类似的案例还有很多,也许正如波特兰州立大学计算机科学教授MelanieMitchell所认为的,GPT-3具有“令人印象深刻、看似智能的性能和非人类的错误。”
然而,由于训练成本过于昂贵,模型修正并不容易。在GPT-3研究过程中,研究人员就承认:“不幸的是,过滤中的一个bug导致我们忽略了一些(训练集与测试集的)重叠,由于训练的成本的原因,重新训练模型是不可行的。”
模型最大的意义,反过来成了约束其发展的瓶颈所在,对于这些问题,业内尚没有特别有效的解决方案。
三、AI大模型能带来强人工智能吗?
在无数科幻片中,机器人拥有了人一样的智能,甚至最终统治人类。这类机器人远远超越了普通AI层面,实现了AGI(通用人工智能),即拥有人一样的智能,可以像人一样学习、思考、解决问题。
苹果联合创始人史蒂夫·沃兹尼亚克为AGI提出了一种特殊测试方案——“咖啡测试”。将机器带到普通的家庭中,让它在没有任何特定的程序帮助下,进入房间并煮好咖啡。它需要主动寻找所需物品,明确功能和使用方法,像人类一样,操作咖啡机,冲泡好饮品。能够做到这一点的机器,即通过了“AGI测试”。
相比之下,普通AI机器,只能完成物品识别、剂量确认等单个、简单的任务,而不具备举一反三、推理能力。
对于AGI,业内出现了严重分歧。一派以OpenAI为首,笃信AGI是未来,不惜花下血本,一派如Meta,对AGI概念并不感冒。
OpenAI认为,强大计算能力是迈向AGI的必经之路,也是AI能够学习人类所能完成的任何任务的必经之路。
其研究表明,2012至2018年6年间,在最大规模的人工智能模型训练中所使用的计算量呈指数级增长,其中有3.5个月的时间计算量翻了一倍,比摩尔定律每18个月翻一倍的速度快得多。
在强大计算力的加持之下,OpenAI模型也得以越炼越大。据透露,GPT-4的尺寸将超过GPT-3的500倍,将拥有100万亿个参数。相比之下,人类大脑有大约80-1000亿个神经元和大约100万亿个突触,也就是说,下一代AI大模型,参数数量级将堪比人类大脑突触的水平。
OpenAI的首席科学家IlyaSutskever在2020年表示,“到2021年,语言模型将开始了解视觉世界。仅文字就可以表达关于世界的大量信息,但它是不完整的,因为我们也生活在视觉世界中。”
这也许是下一代AI大模型最大的看点所在——其将不仅能处理语言模型,大概率将更是一个能处理语言、视觉、声音等多任务的多模态AI模型。
而这也意味着,AI大模型距离能够多任务处理、会思考的通用人工智能更近了一步。
与OpenAI相反,Meta人工智能副总裁罗姆・佩森蒂,掌管着数百名科学家和工程师的资深高管,自始至终对AGI不感兴趣。他认为,人类的智力本身就不是一个统一的问题,更不会有真正的模型能靠自己不断进化智力。“即便是人类都不能让自己变得更聪明。我认为人们对AGI的追捧有点像是对某种议程的追捧。”
反对者可以找到更多的佐证理由。2010年,DeepMind创始人德米斯·哈萨比斯提出了两种接近AGI的方向:
一是通过描述和编程体系模仿人类大脑的思考体系,但操作难度太大,没有人能描述清楚人脑的结构;
二是以数字形式复制大脑物理网络结构,但即便是还原大脑物理功能,也无法解释人类思考的运转规则。
不管是效仿大脑结构,还是试图描述清楚人类智慧的原理,都迈不过“因果关系推理”的鸿沟。迄今为止,没有一个AI模型突破这一难题。
AI大模型能带来强人工智能吗?当模型参数一次次被突破,达到远超人脑突触的数量级时,也许会出现突破“因果关系推理”难题的“奇点”,带领我们进入强人工智能时代,但也许这仅仅是一个幻想。
不过目前,看起来,AI大模型是通往强人工智能最有可能的一条通道。赌一次,值了。