AGI通用人工智能：开启空间计算时代，元宇宙唯一主生产力通用人工智能和专用人工智能

发表时间：2023-06-19 22:27:14

AGI通用人工智能：开启空间计算时代，元宇宙唯一主生产力

通用人工智能AGI（ArtificialGeneralIntelligence），亦被称为强AI。AGI指的是在任何你可以想象的人类的专业领域内，具备相当于人类智慧程度的AI，一个AGI可以执行任何人类可以完成的智力任务，甚至可以说AGI是一种在大多数具有经济价值的工作上超越人类的系统，其中包括近期大热概念AIGC（人工智能生成内容），现今AI生成的文本、图片、影音频等等在某种程度上已经超越了部分由人力创造的内容。

元宇宙的概念众说纷纭，广义的元宇宙（Metaverse）指的是一个虚拟的现实世界，由数字化的环境和虚拟实体组成，可以与现实世界进行交互和融合。它包罗万象，可以通过各种设备（如智能手机、计算机、VR/AR头戴设备）来访问和体验。狭义的元宇宙则指的是特定平台或系统下的虚拟空间，如Facebook的HorizonWorkrooms、Roblox、Fortnite等。这些平台提供了一种集成了社交、娱乐、商业和创造力的虚拟环境，用户可以在其中与其他人互动、探索虚拟世界、参与游戏或创建内容。

虽然AGI目前来看和元宇宙一样，都是一个发展中的概念，但我认为，元宇宙体验的升级必将依靠AGI才能做得到。现如今市面上的所谓“元宇宙”只不过是一个片面的虚拟空间，从场景人物建模到虚拟人智能化等等做得都不够到位，看起来甚至有些滑稽可笑。但即便如此，这样一个虚拟世界的打造仍需投入大量成本，而这显然成为了影响元宇宙构建的关键因素。是AGI让我看到了广义元宇宙愿景实现的可能。

01空间计算时代与元宇宙的差异及共性

近日，苹果在其年度全球开发者大会上发布了混合现实产品VisionPro。这款产品被认为是苹果公司对于虚拟现实（VR）和增强现实（AR）技术的重要突破，被寄予了很高的期望。事实上，这的的确确是一款惊艳的产品，在发布会上，库克避而不谈“AI”“元宇宙”等大热概念，而是说“如同Mac将我们带入个人计算时代，iPhone将我们带入移动计算时代，AppleVisionPro将带我们进入空间计算时代。”

“空间计算时代”，这个“空间”自然是指现实空间。很显然，这明显是要与“元宇宙推广大使”扎克伯格的allin的虚拟空间（及狭义元宇宙）区分开来。

这或许是出于对市场和消费者的考量，苹果可能认为元宇宙这个词已经被过度使用或滥用，导致其真正的含义变得模糊不清，因此更倾向于使用其他术语或概念来描述他们的产品和愿景；也或许是认为人们过度沉浸在虚拟世界中一定程度必将削弱与真实世界的联系和体验，这与他们的品牌理念不合。

当然，对于苹果刚刚发布的MR（混合现实）头显VisionPro，扎克伯格是这样评价的：“这可能是未来计算的愿景，但这不是我想要的。”扎克伯格坚持Meta将致力于创建人工智能模型，与竞争对手相比，这些模型可供更多人使用，并最终符合他的元宇宙计划。

总之，无论是“空间计算时代”还是“元宇宙”，每个公司都有其独特的价值观和战略选择，这赋予了消费者更多选择的空间。然而作为一名元宇宙以及AI行业的从业人员，我认为虽然苹果避免直接将自己与元宇宙联系在一起，但其卓越的技术生态系统、前沿的增强现实技术与元宇宙存在着契合之处。

二者共同追求将虚拟和现实世界融合，为用户创造更加沉浸式、个性化和连接性强的数字体验。这种契合使得增强现实技术成为构建元宇宙的重要工具之一，为用户打开了通往数字化未来的大门。也就是说“空间计算”和广义的“元宇宙”某种程度上殊途同归——实现物理世界和数字世界的更好融合。

02AGI实现物理世界和数字世界的更好融合

在追求物理世界和数字世界的更好融合这个过程中，必将应用到AGI去提升融合效率。还是以刚刚提到的苹果VisionPro为例，从体验者的口中可以窥见这款眼镜的优缺点。优点自然是苹果延续了一贯的高标准黑科技，注重用户体验感等，比如，头显外部搭载“Eyesight”透视功能，通过扫描面部生成虚拟与现实交界中的3D化身；配备了12颗摄像头、5个传感器以及6个麦克风，使得空间定位更为精准等。当然也存在机器自重过重、体验空间局限、智能化程度有待提高等问题。

从其中我关注到的是，想提升这类增强现实设备的使用感受，最终实现空间计算时代，离不开AGI的帮助，也就是说，无论是在元宇宙中还是苹果推崇的空间计算时代里，凭借着纯粹的人力，根本支撑不起元宇宙中用户们的内容需求。

想要物理世界和数字世界的更好融合首先就要解决五感（视觉、听觉、嗅觉、味觉、触觉）等方面的真实性，无论是视觉内容、元宇宙智能数字人（或许也可以说是空间计算时代智能NPC）等都需要由AI作为主力去进行创造。

在视觉内容方面，在生活中，3D视觉是人类的本能，但是3D需要的设备、环境、技术等等的专业程度比之2D数据成几何级翻倍，单单依靠个人进行元宇宙3D场景的构建、人物的建模将会是巨大的工作量。依靠AI相关技术例如卷积神经网络的训练可以很好的提升3D人物场搭建效率。

同时，AI也可以为元宇宙提升互动体验，例如提升智能数字人交互能力，可以应用到一些AI技术，例如自然语言处理（NLP），使计算机能够与用户进行自然的对话和交互；强化学习（RL）训练智能体在环境中做出决策和行动，更好地培养虚拟角色或代理人，使其具有自主决策和智能行为，增强用户与虚拟环境的互动体验。类似数绽科技这样的公司就在和多个上市公司一起合作，打造逼真的AI互动角色。

03更多AI技术的发展与崛起

随着AIGC的出现，计算机可以通过学习和模仿人类的创造力，自动生成各种丰富多样的内容，AI可以带来更智能化的互动体验、供个性化的元宇宙体验以及智能化的帮助和支持。只有应用到AI的智能化、学习能力以及工作效率才能使得元宇宙成为一个充满智能、包罗万象的虚拟空间。

AI很多相关的技术都可以初步帮助我们达成上述愿景。我最近在阅读一些AI书籍就关注到了LangChain技术。自ChatGPT发布以来，大型语言模型(LLM)广受欢迎。很多人没有足够的资金和计算资源从头开始训练自己的大语言模型，所以使用预训练的大语言模型成为了很多人的选择。

LangChain是一个开源Python库，支持人们使用它来构建LLM支持的应用程序。它提供了工具、组件和接口，以简化与大型语言模型（LLM）和聊天模型的交互，并管理这些组件的连接。此外，LangChain还可以集成额外的资源，如API和数据库，以增强应用程序的功能。这样拥有编写代码能力的人们就可以开发属于自己的程序，包括自然语言处理、对话系统、智能助手等，十分高效灵活。这样的AI驱动产品越来越多，让更多包括公司掌握开发自己的GPT的能力。

在元宇宙中，LangChain就可以利用自己的组件比如PromptTemplatesandValues（提示模板和值）将用户输入和其他动态信息转换为适合语言模型的格式，可以作为输入传递给语言模型进行处理和生成智能组件化的回应；利用ChatMessageHistory（聊天消息历史）记住先前的聊天交互数据，并将其传递回模型，以维护上下文并提高模型对对话的理解。

除了AI驱动产品，如今文字生成视频的体验工具也步入了公众视野，StableDiffusion和《瞬息全宇宙》背后技术公司Runway出品的AI视频编辑工具Gen2近日开放了免费试用渠道。Gen1和Gen2的发展是人工智能领域的一大进步，尤其在视频生成领域。Gen1通过引入时间层和联合训练图像和视频数据，成功将潜扩散模型扩展到视频生成领域。这使得Gen1能够生成细粒度可控的视频，并能对参考图像进行定制。此外，引入的全新引导方法也为生成结果的时间一致性提供了精确的控制。

Gen2进一步扩展了功能，直接实现了文本+参考图像生成视频、静态图片转视频、视频风格迁移等7大功能。这意味着用户可以更加灵活地利用Gen2进行视频创作和编辑。无论是根据文本和参考图像生成视频，还是将静态图片转化为动态视频，或者进行视频风格迁移，Gen2提供了更多的创作可能性和个性化选项。

总之，AI行业的发展日新月异，我在这一波波浪潮之中无数次坚定了自己的看法：无论是在元宇宙中还是苹果推崇的空间计算时代里，AGI将会提升空间计算时代（元宇宙）的体验感，其中AIGC将会是主要的生产力。AI就是虚拟以及真实的未来。

本文作者李逸群，人工智能科技公司CEO，关于通用人工智能、人工智能生成工具、应用模型训练等AI前沿领域。系福布斯中国撰稿人，发表观点仅代表个人。

2023北京智源大会开幕专家共话通用人工智能机遇与挑战

6月9日，为期两天的“北京智源大会”在中关村国家自主创新示范区会议中心成功开幕。科技部副部长吴朝晖和北京市副市长于英杰出席开幕式并致辞。智源研究院理事长张宏江主持开幕式。

北京智源大会是智源研究院主办的年度国际性人工智能高端专业交流活动，定位于“AI内行顶级盛会”，以“国际视野、技术前沿、思想激荡、洞见未来”为特色，已连续举办5届。今年，大会邀请到了图灵奖得主GeoffreyHinton、YannLeCun、JosephSifakis和姚期智，张钹、郑南宁、谢晓亮、张宏江、张亚勤等院士，加州大学伯克利分校人工智能系统中心创始人StuartRussell，麻省理工学院未来生命研究所创始人MaxTegmark，OpenAI首席执行官SamAltman等200余位人工智能顶尖专家参会，嘉宾将以国际视角探讨通用人工智能发展面临的机遇与挑战。

智源研究院院长黄铁军发布《2023智源研究院进展报告》，并发布了全面开源的“悟道3.0”系列大模型及算法，报告了在高精度生命模拟和有机大分子建模方面的最新进展。

成果发布方面，继2021年悟道大模型项目连创“中国首个+世界最大”纪录之后，智源“悟道3.0”进入全面开源新阶段，带来一系列领先成果：“悟道·天鹰”（Aquila）语言大模型系列、天秤（FlagEval）开源大模型评测体系与开放平台，“悟道·视界”视觉大模型系列，以及一系列多模态模型成果。

智源大模型系列全面开源发布语言、视觉、多模态等领先成果

智源研究院是国内最早进行大模型研究的科研机构之一，自2020年10月启动大模型研发工作，发展至今已实现了多个率先。据黄铁军介绍，在2021年3月，悟道1.0发布会上，智源研判人工智能已经从“大炼模型”转变为“炼大模型”的新阶段，从此，“大模型”这个概念进入公众视野。

至于何为大模型？他认为需要具备三个条件：一是规模要大，参数达百亿规模以上；二是涌现性，能够产生预料之外的新能力；三是通用性，不限于专门问题或领域，能够处理多种不同的任务。

悟道系列模型已发展到“悟道3.0”版本，涵盖语言、视觉、多模态等基础大模型，现在已全面开源。

“悟道·视界”视觉大模型系列，实现六项国际领先技术突破，点亮通用视觉曙光。

“悟道·视界”系统化解决了当前计算机视觉领域的一系列瓶颈问题，包括任务统一、模型规模化以及数据效率等。

悟道·天鹰（Aquila）语言大模型系列+天秤（FlagEval）评测体系,打造大模型能力与评测标准双标杆。

为推动大模型在产业落地和技术创新，智源研究院发布“开源商用许可语言大模型系列+开放评测平台”2大重磅成果，打造“大模型进化流水线”，持续迭代、持续开源开放。

开源开放，FlagOpen大模型开源技术体系升级，大规模、可商用中文指令数据集COIG二期发布。

黄铁军院长提到，大模型不是任何一家机构或者一家公司垄断的技术，大模型技术体系是大家共建共享。我们要共建一个智力社会所需要的一套基础的算法体系。因此，智源研究院在打造开源生态方面做了许多努力。

今年年初发布的FlagOpen大模型技术开源体系，经过一段时间的发展，又有了一系列发展。为大模型发展夯实底层技术栈，提供切实加速度。

人工智能顶级专家共话通用人工智能发展机遇与挑战

本次大会围绕当前大模型等通用人工智能技术发展的热点问题，汇聚顶尖专家，搭建国际交流合作平台，将为人工智能技术可持续发展注入强劲动力。

在本届大会安排上，重点围绕以下三方面展开：

通用人工智能发展现状与未来趋势：

虽然大模型生成的内容质量持续在提升，但是仍有专家对大模型路径存疑。图灵奖得主YanLeCun认为基于自监督的语言模型无法获得关于真实世界的知识，这些模型在本质上是不可控的，并提出了“世界模型（WorldModel）”的概念。

本次大会重点围绕通用人工智能主要三条路径的前沿研究现状及未来趋势进行深入研讨。

深度学习大模型路径设置了基础模型前沿技术、视觉与多模态大模型、生成模型等论坛，具身方向设置了具身智能与强化学习论坛，类脑智能方向设置了基于认知神经科学的大模型、

类脑计算、AI生命科学等论坛，另外，还有智能的物质基础等更为前沿的研究方向。

安全伦理问题和风险防范：

大会开幕式上，未来生命研究所创始人MaxTegmark介绍受控下的AI发展，分享了“KeepingAIundercontrol”的报告，并与清华大学张亚勤院士进行了对话，共同探讨AI伦理安全和风险防范问题。

6月10日全天的“AI安全与对齐”论坛，OpenAI联合创始人SamAltman进行了开场主题演讲，围绕模型的可解释性、可扩展性和可泛化性给出了见解。随后，SamAltman和智源研究院理事长张宏江开展了尖峰问答，主要探讨在当前的AI大模型时代，如何深化国际合作，如何开展更安全的AI研究，以及如何应对AI的未来风险。

本次论坛众星云集，加州伯克利分校教授StuartRussell、图灵奖得主，中国科学院院士姚期智、Anthropic联合创始人ChristopherOlah等等AI专家，也在论坛中给出了自己对当前AI可持续发展的洞见。

开源开放创新生态建设

开源开放是人工智生态建设的必然选择，本次大会专门设置了AI开源论坛，同时邀请了国际开源社区LAION的创始人，Linux基金会负责人共同探讨开源社区、开源生态的建设与运营，推动开源开放创新生态建设。

每年的智源大会，都会吸引几万人工智能专业人士，受到广泛认可。这一顶尖AI内行交流平台，已成为链接国内外人工智能顶尖学者，进行前沿思想研讨的顶尖专业交流平台。大会分享嘉宾一直遵循严格的内行荣誉邀请制，以保障分论坛也有不逊色于主论坛的高端分享嘉宾与规格品质。每年智源大会，大部分论坛都由智源学者、产业合作者共同组织，是智源学术与产业生态圈携手绘制的杰作。（图文：张九阳）

AGI通用人工智能：开启空间计算时代，元宇宙唯一主生产力 通用人工智能和专用人工智能