博舍

营造人工智能大模型产业生态 人工智能 导航

营造人工智能大模型产业生态

推动人工智能大模型产业化应用是提升国家竞争力的关键举措。要抢占人工智能大模型产业发展制高点,必须加强战略规划和深度治理,推进新型算力生态基础设施建设,打造稳定可靠的算法开源生态。

不久前举办的中关村论坛人工智能大模型发展分论坛发布的《中国人工智能大模型地图研究报告》提出,我国自2020年进入大模型快速发展期,目前与美国保持同步增长态势。当前,我国人工智能大模型已发布79个。此前召开的中共中央政治局会议提出,要重视通用人工智能发展,营造创新生态,重视防范风险。推动人工智能大模型产业化应用,是加快实现我国人工智能领域高水平科技自立自强的应时之举,也是推动我国产业优化升级、实现经济高质量发展的重要一招,更是提升国家竞争力、维护国家安全的关键举措。

营造良好的人工智能大模型产业生态,应着力解决目前我国人工智能大模型发展面临的高端算力技术不可控、大规模高质量数据集少、算法可靠性和可解释性弱等核心问题。目前,由GPU、FPGA、ASIC等加速芯片异构而成的人工智能高端算力芯片技术面临“卡脖子”风险。在高效低碳的算力网络基础设施方面,跨省域互联互通与动态调配的机制尚未建立,规模化的高端算力供给能力亟待提升。同时,高质量数据供给不足影响了大模型“智商”。这体现在高价值公共数据开放程度不足、行业及企业数据要素市场化流通不够充分、用于大模型训练的数据集规模较小等。此外,算法可解释性不强也影响了大模型的产业化应用。拥有千亿级参数的大模型算法,开发难度大、训练难度高、决策过程及结果的可解释性差、合规评估难,直接对行业大模型开发的进程有所影响。

基于此,要抢占人工智能大模型产业发展制高点,必须加强源头技术创新,打赢软硬件基础设施国产化攻坚战,化解大模型关键核心技术被“卡脖子”的风险,多措并举推动人工智能大模型产业化应用。

首先,推进新型算力生态基础设施建设。实施高端算力芯片研发重大专项扶持计划,鼓励头部企业联合高水平大学“揭榜挂帅”。建立新型研发机构,推动国产高端算力芯片实现突破。在国家“东数西算”工程背景下,推动新型算力网络基础设施建设的顶层设计,建设国家公共算力开放创新平台,搭建算力生态链,推动全国算力资源互联互通、协同共享与优化配置。

其次,构建规模大、质量高的数据生态。完善国家公共数据开放标准和平台,推动高价值公共数据开放与多元化授权运营,引导行业、企业大数据有条件开放、融通并进场交易,形成多模态、多领域的大规模数据集。打造数据集精细化标注的众包服务平台和数据质量评估标准体系,建设高质量中文语料库。构建敏感领域数据隐私保护的监管体系和技术服务体系。

再次,打造稳定可靠的算法开源生态。建立大模型算法及工具开源平台,完善具有稳定性、可靠性和安全性的算法监测标准和技术体系。实施行业大模型产品和服务的登记备案、安全评估及潜在风险预测的审查机制。鼓励平台企业积极开展算法创新探索与应用,赋能中小企业降本增效并创新商业模式,深化数字化转型并引领高质量发展。

最后,加强人工智能大模型的战略规划和深度治理。制定人工智能大模型产业发展规划,对大模型技术研发和产业应用给予相应的政策、资金和人才等支持。推动算力、算法、数据、应用场景等上下游产业无缝衔接与协同联动,实现大模型产业相关要素跨语言、跨模态、跨任务、跨行业融合发展。加强人工智能大模型深度治理的国际合作,推动技术向善发展,促进大模型产业高质量发展。

自下而上的人工智能案例

ChatGPT和其他生成式人工智能工具越来越受欢迎,如果您曾经使用过这些工具,您可能已经意识到,您正在通过您的问题和与人工智能平台的互动来揭示您的想法(可能还有情绪),因此,您可以想象这些人工智能工具正在收集的大量数据,以及它们能够从我们的思维方式中提取的模式。

这些商业行为的影响非常明显:通过收集、整理和货币化源自我们思想和感受的模式,一种新的人工智能经济正在兴起,与现有的社交媒体和技术平台相比,对我们的亲密关系和认知的入侵将大得多。

因此,我们有可能成为“知识奴隶制”的受害者,在这种情况下,企业和/或政府人工智能垄断企业控制着我们对知识的访问。

让我们不允许这样做,我们自古以来就“拥有”自己的思维模式,我们也应该拥有那些通过人工智能自动衍生出来的思维模式,我们可以做到!

确保我们保持控制的一种方法是开发自下而上的人工智能,这在技术上是可行的,在道德上也是可取的,自下而上的人工智能可以通过开源方法出现,重点关注高质量数据。

开源方法:自下而上人工智能的技术基础

自下而上的人工智能挑战了主流观点,即只有使用大数据才能开发强大的人工智能平台,ChatGPT、Bard和其他大型语言模型(LLM)就是这种情况。

根据谷歌泄露的一份题为“我们没有护城河,OpenAI也没有”的文件,开源人工智能可以战胜ChatGPT等巨型模型。

事实上,这已经在发生了,开源平台Vicuna、Alpaca和LLama在质量上越来越接近领先的专有人工智能平台ChatGPT和Bard,如图所示。

开源解决方案也更具成本效益,根据谷歌泄露的文件:“他们用100美元和13B的参数做事,而我们在1000万美元和540B的参数下苦苦挣扎,而且他们在几周内就这样做了,而不是几个月。”

开源解决方案也更快、更模块化、更环保,因为它们需要更少的数据处理能源。

高质量数据:自下而上人工智能的燃料

随着自下而上的人工智能算法变得越来越可用,重点正在转移到确保更高质量的数据上,目前,算法主要通过数据标注人工微调,主要在印度和肯尼亚等低成本英语国家进行,例如,ChatGPT数据集在肯尼亚进行了注释,这种做法是不可持续的,因为它引发了许多与劳动法和数据保护相关的问题,它也无法提供深入的专业知识,而这对于开发新的人工智能系统至关重要。

在我领导的外交基金会组织,我们已经成功地试验了一种将数据标签集成到我们日常运营中的方法,从研究到培训和管理,类似于黄色记号笔和便利贴,我们在开设课程、开展研究或开发项目时以数字方式对文本进行注释,通过围绕文本的交互,我们逐渐构建了自下而上的人工智能。

这种自下而上过程的主要障碍不是技术,而是通常有利于控制知识和信息共享的认知习惯,根据我们在外交基金会组织的经验,通过分享对相同文本和问题的想法和观点,我们不仅在我们作为人类的同事之间,而且在我们人类和人工智能算法之间逐渐增加了认知接近度,这样,在构建自下而上的AI的同时,我们还培育了一种新型组织,它不仅适应人工智能的使用,而且改变了我们合作的方式。

自下而上的人工智能将如何影响人工智能治理?

ChatGPT引发了重大的治理担忧,包括埃隆·马斯克、尤瓦尔·哈拉里和数千名顶尖科学家呼吁暂停人工智能开发,因为大型人工智能模型会给社会带来重大风险,包括市场、认知和社会权力的高度集中,这些恐惧和担忧中的大部分都可以通过自下而上的人工智能来解决,它将人工智能返还给公民和社区。

通过促进自下而上的人工智能,许多由ChatGPT引发的治理问题可能会通过仅仅防止数据和知识垄断来解决,我们将根据我们的数据开发我们的人工智能,这将确保隐私和数据保护,当我们控制我们的人工智能系统时,我们也将控制知识产权,我们可以以自下而上的方式决定何时将他们的人工智能模式贡献给更广泛的组织,从社区到国家乃至全人类。

因此,许多与人工智能相关的担忧,包括那些与人类生存相关的恐惧(撇开它们是否现实不谈),将因我们拥有人工智能和知识模式而变得不那么突出。

自下而上的人工智能对于发展包容、创新和民主的社会至关重要,它可以减轻从生成人工智能继承的权力集中的风险,当前的法律、政策和市场机制无法应对生成人工智能的知识垄断风险,因此,自下而上的人工智能是一种切实可行的方法,可以培育一个新的社会“操作系统”,该系统围绕人类的中心地位、他们的尊严、自由意志和实现创造潜力而构建,正如外交基金会通过我们的人道主义方法提出的那样,我们早在2019年就开始开发。

自下而上的人工智能会起飞吗?

自下而上人工智能的技术解决方案在今天是可行的,我们会用它们作为自上而下人工智能的替代品吗?目前,这仍然是任何人的猜测,一些个人和社区可能比其他人更有动力和能力尝试自下而上的人工智能,有些人可能出于惯性继续依赖自上而下的人工智能,这两种方法甚至可以共存,但是,为了我们自己和全人类,我们应该质疑为我们服务的是什么,并探索和鼓励替代方案,并最终做出明智的决定。

本文仅表达作者个人观点,并不反映半岛电视台编辑立场。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇