我国首个超大规模智能模型系统“悟道10”发布超大规模人工智能模型训练平台

发表时间：2023-06-25 07:06:57

我国首个超大规模智能模型系统“悟道10”发布

3月20日，北京智源人工智能研究院举办“智源悟道1.0AI研究成果发布会暨大规模预训练模型交流论坛”，并发布我国首个超大规模智能模型系统“悟道1.0”。

据悉，“悟道1.0”由智源研究院学术副院长、清华大学唐杰教授领衔，带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关，取得了多项国际领先的AI技术突破，形成超大规模智能模型训练技术体系，训练出包括中文、多模态、认知、蛋白质预测在内的系列模型，勇闯通用智能发展前沿，构建我国人工智能应用基础设施。同时，与龙头企业共同研发工业级示范性应用，加快大规模智能模型应用生态建设。

北京市科委、中关村管委会副主任许心超介绍，北京将依托在人工智能领域的科技资源和产业发展优势，支持建设智源研究院等一批世界一流新型研发机构，前瞻部署人工智能基础研究，加强关键核心技术攻关，推动人工智能占先。

北京市超前部署通用智能发展，支持智源研究院牵头建设“超大规模人工智能模型训练平台”，“悟道1.0”即为该平台的重要内容，通过研发超大规模信息智能模型和生命模型，推动电子信息、生物医药等基础科学科研范式变革，加速科学研究进程。同时，该平台将推动创新企业及个人开发者基于大模型构建智能化水平更高的场景应用，赋能实体经济智能化升级，促进经济高质量发展。

“悟道”模型技术委员会主任、智源研究院学术副院长唐杰教授介绍了“悟道”模型的战略布局及阶段性成果。“悟道1.0”先期启动了4个大模型的研发：以中文为核心的大规模预训练模型“悟道·文源”、首个公开的中文通用图文多模态预训练模型“悟道·文澜”、我国首个具有认知能力的超大规模预训练模型“悟道·文汇”、超大规模蛋白质序列预测预训练模型“悟道·文溯”。

其中，“悟道·文源”的目标是构建完成全球规模最大的以中文为核心的预训练语言模型，在中英文等多个世界主流语言上取得最好的处理能力，在文本分类、情感分析、自然语言推断、阅读理解等多个任务上超越人类平均水平，探索具有通用能力的自然语言理解技术，并进行脑启发的语言模型研究。目前，“悟道·文源”模型参数量达26亿，具有识记、理解、检索、数值计算、多语言等多种能力，并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务。

“悟道·文澜”的目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题，并最终生成产业级中文图文预训练模型和应用，并在多个评测应用上超过国际最高性能。目前，“悟道·文澜”模型参数量达10亿，模型性能已到达国际领先水平，并已对外开放API。

发布会上，为了展示如何使用“悟道·文澜”模型，智源研究院联合中国人民大学高瓴人工智能学院和一览群智公司，推出了两款基于该模型的小应用，其中“赋魂”AI小程序，可以为用户上传的照片配文，“AI心情电台”小程序可以利用图片和歌词的相关性，为用户上传的照片搭配最合拍的音乐。

“悟道·文汇”则致力于从认知的角度研究通用人工智能中一系列更本质问题，侧重进一步提升和发展预训练模型基于逻辑、意识和推理的认知能力，目标是研发出千亿至万亿级别参数量的、更通用且性能超越国际水平的预训练模型，搭建预训练模型体系，同时形成认知智能生态。目前，“悟道·文汇”模型的参数规模达113亿，在多项任务中“悟道·文汇”的表现已经接近突破图灵测试，通过简单微调就已经实现AI作诗、AI作图、AI制作视频、图文生成、图文检索、复杂推理。

“悟道·文溯”最终目标是以基因领域认知图谱为指导，研发出十亿参数规模、可以处理超长蛋白质序列的超大规模预训练模型，在基本性能、可解释性和鲁棒性等多个方面达到世界领先水平。

据唐杰介绍，此次发布的“悟道”大模型1.0版本，已经完成了百亿和千亿参数规模的预训练，在多个国际评测中取得世界第一，在部分任务上具有一定认知能力。今年，还将陆续发布后续迭代版本，面向产业界开放使用。

“悟道”模型应用生态建设分为三个主要阶段，分别关注示范应用、API生态及社区运营维护等。目前，智源研究院已启动第一阶段的示范性应用搭建，正与快手、搜狗、360、阿里、智谱华章、一览群智、循环智能、新华社等机构就模型的应用进行洽谈，联合构建一批工业级示范性应用。

下一步，智源研究院将加强用户的开发，做好用户服务，与AI龙头企业共同研发更多工业级示范性应用，并将加快推动API生态构建及社区运营迭代工作，通过举办学术交流、技术挑战赛等活动提高“悟道”模型的影响力，吸引更多AI企业、研究机构、个人开发者等开展基于模型的应用开发工作，推动构建国际领先的超大规模智能模型应用生态。

图片来源：智源研究院

人工智能从“大炼模型”到“炼大模型”

科技日报记者崔爽

人工智能可以分为几个发展阶段：基于数据的互联网时代、基于算力的云计算时代，以及接下来可能将进入的基于模型的AI时代，这相当于把数据提升为超大规模预训练模型。未来，研究人员可以直接在云模型上进行微调，很多公司甚至不用维护自己的算法研发团队，只需要应用工程师即可。

写小说、和人聊天、设计网页、编写吉他曲谱……号称迄今为止最“全能”的AI模型GPT-3，当然远远不止会这些。作为2020年人工智能领域最惊艳的模型之一，GPT-3无疑把超大规模预训练模型的热度推向了新高。

3月下旬，我国首个超大规模人工智能模型“悟道1.0”发布，该模型由智源学术副院长、清华大学教授唐杰领衔，带领来自清华大学、北京大学、中国人民大学、中国科学院等单位的100余位AI科学家组成联合攻关团队，取得了多项国际领先的AI技术突破，形成了超大规模智能模型训练技术体系，训练出包括中文、多模态、认知和蛋白质预测在内的系列超大模型。

已启动4个大模型开发

据悉，“悟道1.0”先期启动了4个大模型研发项目：以中文为核心的超大规模预训练语言模型文源、超大规模多模态预训练模型文澜、超大规模蛋白质序列预测预训练模型文溯，以及面向认知的超大规模新型预训练模型文汇。

唐杰介绍，文源拥有26亿参数，文澜则为10亿，文溯是2.8亿，文汇则达到了百亿以上。虽然相对于GPT-3的1750亿参数而言还有差距，但“接下来会有更大的模型”。

目前，文源模型参数量达26亿，具有识记、理解、检索、数值计算、多语言等多种能力，并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务，在中文生成模型中达到了领先的效果。

“目前这些模型既有一些交集，但也存在明显差异。文源的重点是在中文和跨语言，未来也会加入知识；文澜的重点主要是图文；文汇则更多地瞄向认知。”唐杰表示，认知是人工智能技术发展的趋势和目标，关系到机器是否能像人一样思考这个终极问题。

“下一代人工智能技术的发展方向一定是认知。”据唐杰介绍，在作诗任务中，目前文汇已经通过了图灵测试。从算法的角度上来看，文汇能通过图灵测试的关键在于“生成”，而不仅仅限于“匹配”，这种生成能力是多样的。

被问及为何会选择这4个预训练模型项目时，唐杰说，这是综合考虑了国内外同行的相关工作、国内人工智能发展的现状、团队人员构成、北京区域优势等作出的决定。“当时GPT-3刚发布不久，悟道团队认为首先要对标其卓越的少样本学习能力，同时还要做出差异化，做短、中、长3个阶段的布局。于是，中文版GPT-3即清源CPM（文源的前身）应运而生，这是短期布局。之后，文源要向中英文模型乃至多语言模型发展，这是中期布局。最后走向认知智能，这是长期布局。”唐杰说，与此同时，国内顶尖的企业人才、学术人才和自然科学人才所组成的团队给了项目巨大的想象空间。

大模型有大智慧

自2018年谷歌发布BERT以来，预训练模型逐渐成为自然语言处理（NLP）领域的主流。

2020年5月，OpenAI发布了拥有1750亿参数量的预训练模型GPT-3。作为一个语言生成模型，GPT-3不仅能够生成流畅自然的文本，还能完成问答、翻译、创作小说等一系列NLP任务，甚至可以进行简单的算术运算，并且其性能在很多任务上都超越相关领域的专有模型。

以GPT-3为代表的超大规模预训练模型，不仅以绝对的数据和算力优势取代了一些小的算法模型，更重要的是，它展示了一条通向通用人工智能的可能路径。在此背景下，建设国内的超大规模预训练模型和生态势在必行。

在唐杰看来，为了提高机器学习算法的效率，改变传统的行业布局，过去几年，大家拼命做模型，导致模型越做越多。然而，一般的模型训练效果并不如人意，花了大量财力精力却达不到理想的训练效果，“为了优化效果、提高精度，模型越来越复杂，数据越来越大，很多公司的能力不足以应对这种状况，效率越来越低。”唐杰举了个例子，小炼钢厂往往条件简陋，能炼钢，但质量不好。大炼钢厂买得起设备、花得起电费，炼出的钢质量就好，大模型就是大炼钢厂，它可以获得大量数据，并把数据清洗干净，提升算力，满足要求。

与此同时，“小模型可能只需要几个老师和学生就能完成算法的设计，但是大模型的每一层都要找专人来做，这样可以把模型的设计和训练精细化，模型设计也从单打独斗变成了众人拾柴。”唐杰说。

小团队将成最大受益者

据唐杰透露，团队目前正在跟北京冬奥会合作，开发可通过文本自动转成手语的模型，“医疗方面我们的主要方向是癌症早筛，如上传乳腺癌图像，找到乳腺癌相关预测亚类，通过影像识别宫颈癌亚类等。”

而谈到“悟道1.0”的发展，唐杰坦言，目前还存在需要持续攻关的问题。一是模型能否持续学习的问题，即能否不断地从新样本中学习新的知识，并能保存大部分以前已经学习到的知识。就目前来看模型还需要调整，其效果还有待加强；二是面对一些复杂问题，目前模型还无法回答；三是万亿级模型的实用性问题，即如何在保证精度的同时压缩模型，从而能让用户低成本地使用。

“这是一个全新的产业模式。原来大家数据上云、算力上云，现在模型上云。”唐杰说。

他认为，人工智能可以分为几个发展阶段：基于数据的互联网时代、基于算力的云计算时代，以及接下来可能将进入的基于模型的AI时代，这相当于把数据提升为超大规模预训练模型。未来，研究人员可以直接在云模型上进行微调，很多公司甚至不用维护自己的算法研发团队，只需要应用工程师即可。

唐杰表示，随着超大规模预训练模型系统的开放，小团队是最大的受益者，大家不必从零开始，预训练基线智能水平大幅提升，平台多样化、规模化，大家在云上可以找到自己所需的模型，剩下的就是对行业、对场景的理解。这将给AI应用创新带来全新的局面。

唐杰透露，“悟道1.0”只是一个阶段性的成果，今年6月将会有一个规模更大、水平更高的智慧模型发布。届时，模型规模会有实质性的进展：模型会在更多任务上突破图灵测试，其应用平台的效果也会更加让人期待。

（崔爽）

【责任编辑：张瑨瑄】

我国首个超大规模智能模型系统“悟道10”发布 超大规模人工智能模型训练平台