AI+Web3:探索人工智能和区块链的融合之路
撰文:zf857.eth
近日,英伟达发布第一季度业绩报告,营收71.9亿美元,超出市场预期的65.2亿美元,毛利率64.6%,调整后每股收益1.09美元,市场预期0.92美元。由于英伟达财报超出预期,带动美股芯片股盘后集体上涨,英伟达盘后一度涨29.35%,股价最高触及395美元,创历史新高,市值直逼「万亿」,AI芯片需求远超预期,英伟达市值在一个交易日内暴涨1840亿美元,涨出了3个比特币的总市值。
英伟达CEO黄仁勋在发布财报时提到了有关AI应用的广阔前景,称计算机行业正在同时经历两个转变——加速计算和生成式AI,企业竞相将生成式AI应用到各个产品、服务和业务流程中,全球万亿美元规模的已安装数据中心将从通用计算转变到加速计算。
当前,几乎所有头部美元基金与机构都紧盯着AIGC赛道,通过积极建立选投坐标快速构建筛选体系,唯恐错过了通往时代的列车。相关数据显示,2023年一季度全球AIGC行业融资总额达38.11亿元,融资次数共计17次。一个风口的兴起往往代表着另一风口的衰落。人们逐渐对WEB3提出各种各样的质疑:「资本都去看AI了,Web3监管收严、叙事不行了」,「AI比Web3看起来靠谱,也更容易出独角兽」。
自人类历史的黎明以来,集体故事一直在定义我们的文化,并丰富我们对世界的理解,叙事的重要性不言而喻。如今,人工智能的叙事正逐渐深入人心,甚至渗透到了Web3领域。有业内人士开始提出「没有AI的Web3是没有灵魂的」,有超过半数的Web3公司已经开始转向AI。那么,AI+Web3将如何融合?近期,源自零知识证明和机器学习的新兴结合体ZKML叙事走热,它将如何协同人工智能和Web3,建立一个可信任的、去中心化的未来?
一、AI需要Web3,反之亦然
CoinDesk的首席内容官迈克尔-凯西(MichaelCasey)说:「将加密货币和人工智能视为不相关的技术是一个错误。它们是相辅相成的,彼此都在改进对方。」
Web3、加密货币和区块链解决了自互联网开始以来一直存在的社会挑战,即在去中心化的环境中如何保持有价值的信息安全。它们通过采用分布式记录和激励机制的新系统来处理人类对信息的信任问题。这些系统帮助由不信任的陌生人组成的社区集体维护开放的数据记录,使他们能够在没有中间人的情况下分发和分享有价值或敏感的信息。
当前,我们正迅速迈向全面人工智能时代,而这一时代所带来的挑战是十分艰巨的。这些挑战涵盖了多个方面,从保护大型语言模型(LLMs)输入的版权,到避免其输出中出现错误的偏见,再到我们目前无法准确区分真实内容和由人工智能创造的虚假信息所带来的「说谎者红利」。要确保人类不受人工智能的负面影响,没有简单的解决方法可言。任何解决方案都不能依赖于过时的20世纪监管和技术框架来解决这些问题。我们迫切需要一个去中心化的治理系统,以应对在这个新时代如何生产、验证和分享信息的挑战。
无论目前的Web3是否能提供所需的解决方案,区块链技术确实在解决这些问题方面发挥了一定的作用。不可篡改的账本使我们能够追踪图像和其他内容的来源,从而防止深度伪造。这种技术也可以用于验证机器学习人工智能产品数据集的完整性。加密货币提供了一种无边界的数字支付方式,可用于向全球为人工智能培训做出贡献的人们提供报酬,如Bittensor等项目正在努力建立代币化的区块链-政府社区,以激励人工智能开发者构建对人类友好的模型。与此相反,私营公司拥有的人工智能系统通常将股东利益置于用户权益之上。
在这些想法能够实现并规模化之前,我们还有很长的路要走。我们将需要整合一系列其他技术,例如零知识证明(ZK)、同态加密、安全计算、数字身份和去中心化凭证(DID)、物联网等。此外,我们还需要解决隐私保护、惩罚不良行为、鼓励以人为本的创新智能以及多方立法监管等诸多挑战。
二、ZKML如何架起AI和区块链的桥梁
近期,源自零知识证明和机器学习的新兴结合体ZKML被广泛讨论。目前,机器学习(ML)的部署变得越来越复杂。很多企业主要依赖于亚马逊、谷歌、微软等服务提供商来部署复杂的机器学习模型。然而,这些服务变得越来越难以审计和理解。作为AI服务的消费者,我们如何相信这些模型所提供预测的有效性呢?
ZKML作为人工智能和区块链之间的桥梁,解决了AI模型和输入的隐私保护问题,同时确保了推理过程的可验证性。它提供了一种解决方案,使得可以在验证私有数据时使用公共模型,或在验证私有模型时使用公共数据。通过添加机器学习功能,智能合约能够变得更加自主和动态,使其能够根据实时链上数据而不是静态规则进行处理。这样一来,智能合约将更具灵活性,能够适应更多场景,甚至是那些在最初创建合约时可能没有预料到的场景。
当前,机器学习算法在区块链上广泛采用的困难之一是其高昂的计算成本。由于百万级别的浮点运算无法直接在以太坊虚拟机(EVM)上执行,因此在链上运行这些模型成为一个挑战。另外,机器学习模型的信任问题也是一个障碍,因为模型的参数和输入数据集通常是私有的,而模型的算法和运行过程又如同一个不透明的「黑匣子」,这可能引发模型拥有者和模型使用者之间的信任问题。然而,通过ZKML技术,我们可以克服这些问题。ZKML允许任何人在链下运行一个模型,并生成一个简洁且可验证的证明,证明该模型确实产生了特定的结果。这个证明可以在链上发布,并由智能合约进行验证。这意味着模型使用者可以验证模型的结果,而无需了解模型的具体参数和运行细节,从而解决了信任问题。
通过上述图表,我们可以看到ZKML技术兼具计算完整性、启发式优化和隐私保护等特点。这种技术在Web3领域有着广泛的应用前景,并且正在快速发展。越来越多的团队和个人加入了这个领域,推动着各种潜力巨大的ZKML项目的开发。
三、ZKML项目分析
以下是一些潜力ZKML项目。
1、Worldcoin
Worldcoin正在应用ZKML,试图建立一个保护隐私的人格证明协议。WorldID用户将能够在他们的移动设备的加密存储中自我保管其生物特征(如虹膜),下载用于生成IrisCode的ML模型并在本地创建零知识证明,接收的智能合约可以证明其IrisCode已成功创建。
然后,可用于执行有用的操作,如成员资格认证和投票。他们目前使用具有安全enclave的可信运行环境来验证摄像头签名的虹膜扫描,但他们最终的目标是使用ZKP来证明神经网络对加密级别安全保障的正确推理,并且保证ML模型的输出不会泄露用户的个人数据。
2、ModulusLabs
ModulusLabs是ZKML领域中最多样化的项目之一,致力于相关研究的同时也在积极构建链上AI应用范例,ModulusLabs通过RockyBot(链上交易机器人)和Leelavs.theWorld(一种国际象棋游戏,所有人与经验证的Leela国际象棋引擎实例对决)展示了zkML的用例。该团队还涉足研究领域,撰写了TheCostofIntelligence(智能的成本)一文,对不同大小模型的各种验证系统的速度和效率进行了基准测试。
3、Giza
Giza是一种可以以一种完全无需信任的方法在链上部署AI模型的协议。它使用的技术栈包括用于机器学习模型的ONNX格式,用于将这些模型转换为Cairo程序格式的GizaTranspiler,用于以可验证和确定性的方式执行模型的ONNXCairoRuntime,以及用于部署和执行链上模型的GizaModel智能合约。Giza总体上属于机器学习模型到证明的链上编译器,为链上AI的发展提供一个替代路径。
4、Zkaptcha
Zkaptcha专注于Web3中的机器人问题,为智能合约提供captcha(验证码)服务,保护智能合约免受机器人攻击,使用零知识证明来创建抗女巫攻击的智能合约。目前,该项目使终端用户通过完成captcha验证码来产生一个人类工作的证明,captcha由链上验证者验证,并通过几行代码由智能合约访问。未来,Zkaptcha将继承zkML,推出类似于现有的Web2验证码服务,甚至可以分析鼠标运动等行为,以确定用户是否为真人。
目前看来,zkML赛道还处于初级阶段,但我们有理由相信会zkML的力量可以给crypto带来更好的前景和发展,也期待该领域能出现更多样的产品,zk技术和crypto为ML的运行提供安全可信的环境,而未来除了产品的创新之外,还可能会催生crypto商业模式的创新,因为在这个狂野和无政府的Web3世界中,去中心化、crypto技术和信任才是最最基础的设施。
结语
在日益复杂和不确定的数字世界中建立信任,一直是人工智能和Web3所面临的核心挑战。然而,将人工智能与Web3相融合却为建立一个信任、安全的去中心化未来带来了巨大希望。对于开发者、技术专家、政策制定者和整个社会而言,共同塑造人工智能和Web3的未来至关重要,我们或许可以创造出一个超乎想象的智能互联网时代。
人工智能“生成物”有版权吗属于谁
数字法治带来的是整个法律制度的变革。在版权保护领域、知识产权领域、反垄断领域都要利益平衡。在数字时代,成为透明人的人类将面临人权将如何保护。
如何界定与保护数字化作品的版权?
对外经济贸易大学法学院教授卢海君认为在探讨数据挖掘的过程中,怎样去解决版权授权付费的问题,并不是任何东西都是可版权的,其中包括很多数字化作品。
ChatGPT用的是全网抓取的数据,那么这些数据当中存在有版权保护的作品,和没有版权保护的作品。如果都需要通过版权这个路径来解决,就会存在很多的坎坷。
GPT所生成的内容,它的创作者是人吗?有意识吗?有思想吗?有感情吗?创作出来的东西是不是思想情感的外在表现?现行著作权法的回答仅是这个东西可能还不能够完全的嵌入到著作权法当中,可以在正确认知数据二元性基础上来寻求人工智能数据挖掘问题的解决方案。
数据具有二元性,它之上可能有个人信息、公共利益、版权保护的作品、科学的数据、商业机密等在内,都可以受到一定程度的保护。比如说专利权、商业秘密权还有版权的保护,但是它跟数据本身之间有区别,数据是它的载体。
从数据的二元性本身的认识出发,解决人工智能数据挖掘当中的问题,可能是更加可行的一个方案。从作品的版权保护的角度来去衡量这个问题很难解决,包括很多数字化作品是没有版权保护,而不是在于说数据上承载的这个作品有没有版权。
卢海君教授强调人工智能产业发展是大势所趋,不应为人工智能产业的发展设置太多的障碍,在人工智能数据挖掘的问题上,应关注数据本身,而不是数据上承载的内容,企业可根据数据的价值付费,如果想有更优质的数据,开发者可以购买各种数据包,以开发出更具有竞争力的人工智能产品。他同时建议权利人和产业界加强对技术保护措施的运用。
大模型推动下的数智化场景应用
澜舟科技创始人兼CEO、中国计算机学会副理事长周明认为,以ChatGPT为标志的大模型产品,代表着语言理解、多轮对话、问题求解进入了一个可实用的时代,有效解决了自然语言处理中任务碎片化的问题,大幅度提高研发效率,标志着自然语言处理进入工业化实施阶段。
但目前生成式人工智能产品在专业领域的落地使用并不是简单的事,在它的构想中,需要进行三个层次大模型——通用大模型、行业大模型、任务大模型的训练。生成式人工智能产品才有可能逐渐从通用走向专用,大幅度提升个人和企业的工作效率。
数传集团CEO施其明结合人工智能在数传集团发展中的一些经验和做法,谈了他对生成式人工智能版权价值的看法。
AIGC在图书的服务领域运用的场景还是非常非常多的。在各类的内容生成,用户之间的交互、机器人和人之间的交互当中,很多读者在通过智能化服务之后,会产生的后续的付费、阅读的满足感、阅读的延展性阅读,这其中的90%都是AIGC的机器人在与读者做互相的交互。
针对AIGC运用场景下的资源服务,数传集团也历史上第一份和人签的数字人的版权。当然这个版权的定义现在很不清晰,也是非常直接的版权问题。版权的价值在哪里?
伴随版权疑问,其实源于AIGC的版权的商业价值就会逐步出现。近期,日本、美国已经有专门针对元宇宙版权和数字人版权相应的采购机构,他们认为及早的布局这些版权市场对未来的价值是很强的,就像及早布置数字图书、有声图书、电影版权等……
提早布局这个版权市场,在未来生成式人工智能的版权定义清晰化之后,可以形成巨大的经济效益。
AIGC时代,开启数字版权保护新格局
从OpenAI推出的GPT系列,一直到现在GPT4.0标志性的产品出现,已经证明人工智能达到了人类的智能水平,2023年也被称之人工智能的历史性时刻。
AI技术的发展,其实对于内容产业,尤其是数字内容产业带来全新的机遇。
在整个AIGC领域,高质量的数据是AI模型的底层基石,从大数据转移到高质量数据,这是至关重要的。AIGC产生的新型内容产品过程中,AIGC模型很难去保证数据质量的准确性或者答案的准确性。
欧盟在首例AIGC的侵权案件发生之后公布了一项新的法律提案——人工智能法案,这也是全世界第一部人工智能的立法,即将在2024年正式生效。
那么如何去构建数字内容的版权保护体系?中文在线董事长兼总裁童之磊提到:首先提供高质量的数据,其次是强化版权服务,第三是构建版权保护的联盟。AI今天带来的版权挑战,既然是以技术为起因,那就应该以技术去应对,从而去解决AI产能认证的新的版权挑战。
关于AIGC和ChatGPT,从版权角度ChatGPT的训练过程使用了大量的数据和文本,清华大学新闻学院教授、元宇宙文化实验室主任沈阳认为从文本的角度走向多模态的角度,数据的预训练是第一个涉及到版权的阶段。生成的内容是需要由提示词来引导,那这个提示的版权怎么样进行保护?提示语的版权保护,未来应该也将会成为一个需要保护的领域;AIGC自己产生的数据AIGD,相当于二次数据,从一次数据到二次数据的版权保护。内容的这种一种数据的保护,其实也包括了行为数据的保护。
携手保护数字版权,开启AIGC版权保护的新的格局。进一步完善数据相关的立法,推动在现有法律框架和未来新的法律框架下的司法保护。
国际应对人工智能生成及内容版权司法保护的监管政策
鉴于人工智能技术爆发出的一个巨大的生产力,目前人工智能生成的内容占所有内容不到1%,但是有数据来预测,将在很短的时间达到10%,甚至更高。
北京互联网法院综合审判一庭副庭长朱阁结合自身的工作环境,谈了她对人工智能生成内容版权司法保护的实践与思考:通用的人工智能,可以像人一样进行感知、理解和交互,也存在人可能被塑造、被取代,社会财富分配不均衡等风险。
我国作为相对较早监管人工智能技术的国家之一,整个法律体系对人工智能技术都有相应的规制和服务管理办法。未来的发展思路促进发展同步的进行依法的治理与规范,在全球合作的法律体系下,共促发展、共护安全、共享成果。
国际上不同的国家有不同的监管政策:意大利比较明确禁止使用ChatGPT;德国、加拿大等国家也表示出于数据保护的方面的考虑,将禁止使用ChatGPT,或者采取更加严格的监管;欧盟在最新的立法草案中提出应该严格禁止对人类安全造成不可接受风险的人工智能系统,同时要求人工智能公司对它的算法保持人为控制提供技术文件,并且要为高风险应用建立风险管理系统;美国在今年1月份发布的一个人工智能的风险管理框架,实际上也是一个发展和治理的这么一个思路。
那么,关于人工智能生成内容是否能够获得版权保护,具有两种观点,一种是不能构成作品,是从人工智能生成物的过程来进行分析,从机器属性和人在其中的参与程度进行的分析,还有认为它可以纳入临界权的制度进行保护。
比如澳大利亚的一份报告认为计算机生成的内容无法达到独创性的要求,只能作为临界权的客体进行保护。日本认为它是作为一个道具被使用,所生成的内容不是日本著作权法规定,就不存在对它享有著作权。
第二个观点是认为人工智能生成物只要在外在表达形式上与人类创作的作品一致。大模型所生成的内容,它显然在表达上与人类基本是一致的,就可以作为作品来进行一个保护。
中国科学院大学知识产权学院副教授、中国科技法学会人工智能法专委会执行主任刘朝分享了对国外生成式AI训练内容相关版权诉讼的思考。
现在案例中因为新技术出现的时候,关于法律能够对现有的技术规制多少?核心的问题就是生成出来的训练数据中包含未经许可的作品或片段,所以才会产生诉讼。针对这样的情况,现有的法律框架中存在哪些风险和问题?
首先,衍生作品的界限判断,衍生作品本来在版权法中不被认为是一个有多大争议的,但是现在由于生成式的AI训练数据出来的衍生作品恐怕人们要重新探讨和认识,这是一个合理使用的判定。其次,商业和商业信息的风险输入的时候,存在风险的商标侵权。最后,关于版权许可,按现在的新技术的发展,真的是不能解决的吗?
刘朝教授举例,美国在这样看似这种乱象下出了一个计算机统一信息交易法,它不仅站在软件企业中自己的交易规则,把软件企业突破合同法和版权法的交易规则上升为联邦层面统一基本法,同时要求各州使用这个法律。
针对衍生作品的界限判断、合理使用的判定、商业秘密的风险、版权许可等风险和问题,她认为通过保持著作权的基本逻辑,充分发挥政府、企业和第三方机构的作用,构建创新的商业模式和交易规则,可以解决目前存在的大部分问题。
人工智能是新一轮科技革命的头雁,汇聚共同的智慧,对企业、社会产生重要的价值。数据训练模型的数据使用问题、文本挖掘问题,以及我们人工智能生成的内容的相关的版权问题,在遵循着国家对人工智能的整体发展的思路下,需要在现行法律的框架下对其进行思考、反思,完善或建立新的制度。
编辑:Kean返回搜狐,查看更多