1人工智能概述
文章目录1.5机器学习算法分类1监督学习1.1回归问题1.2分类问题2无监督学习3半监督学习4强化学习拓展阅读独立同分布lD(independentandidenticallydistributed)5小结1.5机器学习算法分类学习目标
了解机器学习常用算法的分类根据数据集组成不同,可以把机器学习算法分为:
监督学习其无监督学习半监督学习强化学习1监督学习定义:输入数据是由输入特征值和目标值所组成。-函数的输出可以是一个连续的值(称为回归)-或是输出是有限个离散值(称作分类)1.1回归问题例如:预测房价,根据样本集拟合出一条连续曲线。
1.2分类问题例如:根据肿瘤特征判断良性还是恶性,得到的是结果是“良性”或者“恶性”,是离散的。
2无监督学习定义:输入数据是由输入特征值组成,没有目标值-输数据没有被标记,也没有确定的结果。样本数据类别未知;-需要根据样本间的相似性对样本集进行类别划分。举例:有监督,无监督算法对比:
3半监督学习定义:训练集同时包含有标记样本数据和未标记样本数据。举例:
监督学习训练方式:半监督学习训练方式4强化学习定义:实质是makedecisions问题,即自动进行决策,并且可以做连续决策。举例:
小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。
小孩就是agent,他试图通过采取行动(即行走)来操纵环境(行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能走路时,就不会给巧克力。
主要包含五个元素:agent,action,reward,environment,observation;强化学习的目标就是获得最多的累计奖励。监督学习和强化学习的对比:
监督学习强化学习反馈映射输出的是之间的关系,可以告诉算法什么样的输入对应着什么样的输出。输出的是给机器的反馈rewardfunction,即用来判断这个行为是好是坏。反馈时间做了比较坏的选择会立刻反馈给算法。结果反馈有延时,有时候可能需要走了很多步以后知通以前的景一步的选择是好还是环。输入特征输入是独立同分布的。面对的输入总是在变化,每当算法做出一个行为,它影响下一次决策的输入。拓展阅读独立同分布lD(independentandidenticallydistributed)1.独立同分布(i.i.d.)在概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布。在西瓜书中解释是:输入空间中的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。2.简单解释-独立、同分布、独立同分布(1)独立:每次抽样之间没有关系,不会相互影响举例:给一个骰子,每次抛骰子抛到几就是几,这是独立;如果我要抛骰子两次之和大于8,那么第一次和第二次抛就不独立,因为第二次抛的结果和第一次相关。(2)同分布:每次抽样,样本服从同一个分布举例:给一个骰子,每次抛骰子得到任意点数的概率都是六分之一,这个就是同分布(3)独立同分布:i.i.d.,每次抽样之间独立而且同分布3.机器学习领域的重要假设IlD独立同分布即假设训练数据和测试数据是满足相同分布的,它是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。4.目前发展机器学习并不总要求独立同分布,在不少问题中要求样本数据采样自同一个分布是因为希望用训练数据集得到的模型可以合理的用于测试数据集,使用独立同分布假设能够解释得通。目前一些机器学习内容已经不再团于独立同分布假设下,一些问题会假设样本没有同分布。
拓展阅读:Alphago进化史漫画告诉你Zero为什么这么牛:http://sports.sina.com.cn/chess/weiqi/2017-10-21/doc-ifymyyxw4023875.shtml
5小结InOut目的案例监督学习(supervisedlearning)有标签有反馈预测结果猫狗分类房价预测无监督学习(unsupervisedlearning)无标签无反馈发现潜在结构“物以类聚,人以群分”半监督学习(Semi-SupervisedLearning)部分有标签,部分无标签有反馈降低数据标记的难度强化学习(reinforcementlearning)决策流程及激励系统一系列行动长期利益最大化学下棋对您有所帮助的话,点个赞关注下吧!生成式人工智能AB面:多企业布局的万亿潜在市场与监管挑战
随着ChatGPT、文心一言等各类应用的爆火,围绕人工智能的讨论更加热烈。4月11日,国家互联网信息办公室发布《生成式人工智能服务管理办法(征求意见稿)》,旨在促进生成式人工智能技术健康发展和规范应用。
生成式人工智能又称AIGC或生成式AI,是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。南都、N视频记者注意到,在医疗、教育、内容策划等多领域,都有生成式AI的应用场景。中国科学院大学人工智能学院教授、亚太人工智能学会执行主席雷渠江认为,未来,生成式AI在医疗保健、生命科学、游戏、娱乐、计算机工程等垂直领域都将产生巨大影响。“这项技术目前主要以文字为主,但它的发展势不可挡,只会进一步增长。”
根据Gartner、量子位智库预测,AIGC渗透率有望在2025年提升至10%,市场规模或将于2030年逾万亿人民币。越来越多企业布局该赛道。除了包括百度、阿里、腾讯、华为在内的各大科技巨头推出了AI大模型,还有海天瑞声、卓创资讯、拓尔思等企业提供数据源及数据处理服务。
在业内专家看来,生成式AI技术既有优势,也有隐患。在商业化布局、行业生产力提升的同时,新技术发展过程中伴随的合规性、版权、数据隐私等风险问题也亟待政府监管和行业约束共同规范。
生成式AI技术正在进入多领域应用。
应用
2022年11月30日,人工智能研究机构OpenAI推出了生成式AI对话大模型ChatGPT。对话式聊天机器人并非新事物,早在2014年微软便推出了微软小冰,不同之处在于体验感。ChatGPT几乎可以像人类一样对话,甚至能完成写代码、做题、写文章、撰写视频脚本等创造性工作。
ChatGPT推出后便火爆全球。据外媒报道,上线仅4天,ChatGPT的用户量迅速达到百万,服务器一度被挤爆。1月,其月活用户已突破1亿,成为史上用户增长速度最快的消费级应用程序。
生成式AI应用方兴未艾。中国科学院大学人工智能学院教授、亚太人工智能学会执行主席雷渠江向南都记者介绍,随着技术的逐步升级,生成式AI在多领域落地,完成新的技术转化,如营销、文案创作、教育、医疗保健、设计和内容创作、内容与品牌策划、搜索引擎优化和页面简介、各种类型的分析等。“在这些方面,生成式AI在现有的技术基础上发挥强大的作用。”
北京师范大学法学院博士生导师、中国互联网协会研究中心副主任吴沈括告诉南都记者,近期引发热议的ChatGPT、AI换脸等都属于生成式AI的应用场景。“这些应用场景对于生成式AI的能力提升、算法更新改进起到非常快速的推动作用。”
他还介绍,生成式AI目前是人工智能发展领域最为突出的一个方向,同时对于社会生态、经济模式的影响也最为深刻。从现实来讲,对于智能办公、智能制造产生了直接推动;从未来潜力来讲,可能对更广泛的乃至所有行业都有明显的推动作用。
谈及生成式AI的发展,雷渠江也提到,目前,生成式AI还处于初步发展阶段。“生成式AI超越了典型的自然语言处理任务,如语言翻译、文本摘要和本文生成,它在更广泛的领域取得了突破性进展,包括搜索引擎的新架构,解释复杂的算法,创建个性化的机器人,帮助从零开始构建应用程序,解释科学概念等。”他认为,生成式AI未来在垂直领域都将产生巨大影响,如医疗保健、生命科学、游戏、娱乐、计算机工程等。
“这项技术目前主要以文字为主,但它的发展势不可挡,只会进一步增长。”雷渠江认为,随着落地场景的不断增多和完善,未来会更关注个性化服务在更多工业领域以及不同行业领域的应用。
他举例,生成式AI可以依据企业和个人的具体需求提供更具个性化的体验,例如,可以依据用户偏好生成个性化推荐、产品设计或内容。“因为算力的限制,目前,生成式AI无法在工业领域快速产生应用,未来随着新模式的发展,生成式AI将在工业领域发挥更多作用,如医疗保健领域的精准医疗与算法,通过获取大量数据为患者确定最佳治疗方案,甚至在新出现的健康问题上升到人类可能注意到的水平之前就识别出来。”
布局
据工业和信息化部2022年7月披露数据,我国人工智能核心产业规模超过4000亿元,企业数量超过3000家。根据Gartner、量子位智库预测,AIGC渗透率有望在2025年提升至10%,市场规模或将于2030年逾万亿人民币。
南都记者梳理发现,目前已布局生成式AI企业的研发方向大致包括大模型算法、算力支撑、数据源及数据处理、应用场景等。
其中,最引人关注的是AI大模型算法。目前已推出的项目包括百度的“文心一言”、阿里云的“通义千问”、腾讯的“混元AI”、华为的“盘古大模型”、三六零的“360智脑”、商汤科技的“商量SenseChat”等,其中不乏已经布局多年的科技企业。
对于生成式AI而言,强大的算力支撑是保证,其研发也需要数以万计的高性能计算芯片、IDC(互联网数据中心)、算力平台等基础设施。作为生成式AI产业链的上游,目前国内已入局AI算力芯片的企业包括海光信息、寒武纪-U、景嘉微等。在算力平台方面,目前国内已有互联网三巨头BAT及三大电信运营商等企业布局。
南都记者了解到,寒武纪-U方面在3月14日的分析师会议上表示,ChatGPT等现象级智能应用对智能算力也提出了更高的要求。公司的芯片产品对视觉、语音、自然语言处理、传统机器学习技术等各类人工智能技术具备较好的普适性。目前,公司的第五代智能处理器微架构、第五代智能处理器指令集已完成研发。
如果说算力是AI的技术支撑,那数据就是AI算法的“加油站”,因为AI算法研发需要大量的训练数据“喂养”。而业内对数据这一板块的研发主要包括数据源、数据标注和清洗等,不仅有包括海天瑞声在内的训练数据专业提供商,也有卓创资讯、拓尔思等提供资讯服务和研发数据资产平台的企业。
南都记者查询获悉,海天瑞声专注于为AI产业链各类机构提供算法模型开发训练所需的专业数据集。此前,海天瑞声在投资者关系平台上透露,截至2022年6月底,公司已积累智能语音标准化训练数据集764个,覆盖智能家居、机器人、虚拟人等11种应用场景。
生成式AI的应用场景广泛,目前在互联网内容和服务、游戏、辅助驾驶、教育、办公、金融等多个领域都有不同企业入局AI应用。科技巨头百度就在互联网内容和服务、搜索引擎、辅助驾驶等领域有所布局。游戏领域更是有网易、完美世界、三七互娱等头部企业开展AI应用。
南都此前报道,已有多家涉教育业务的企业宣布布局ChatGPT相关业务。2月9日,网易有道方面对此向南都记者表示,其AI技术团队已投入到相关技术在AI口语老师、中文作文批改等教育场景的落地研发中,将尽快推出相关的demo版产品。科大讯飞方面也称,其AI学习机会率先应用到相关技术,涉及中英文作文辅导、中英文口语学习等方面,5月将进行产品级发布。
乱象
随着生成式AI在国内得到越来越广泛的应用,不少问题也开始逐渐显现。
近日,一男子利用AI技术“换脸”,将电视剧中的亲吻片段换上了自己的脸,炮制出了自己与女星迪丽热巴亲吻的画面,随后引起热议。
网友使用“AI换脸”技术生成视频。
据南都此前调查报道,曾有人使用“AI换脸”技术生成女明星淫秽视频,并进行售卖。2021年3月,在一个名叫“AI明星换脸”的QQ群中,一名客服向南都记者发来一份名为“AI换脸最新说明”的文本文件。
文件中介绍,该工作室共有四种消费套餐,价格在28元至138元不等。其中,68元可购买一套AI技术明星换脸淫秽视频,包含换成了迪丽热巴、刘诗诗、刘亦菲、杨颖等当红女明星的视频,共500部左右。而138元则可购买“明星换脸App在线VIP版”,其介绍称,这是“全网最全的换脸App,包含国内外明星,所有换脸的作者都会上传”。
实际上,这样的行为存在着侵权的风险。
2022年,杭州互联网法院曾审理一起因“AI换脸”App利用深度合成算法侵害他人肖像权的案件。其中,原告楼某某系国内古风汉服模特,发现被告A公司运营的“AI换脸”App中有其拍摄的古风造型视频模板。用户可通过上传个人照片,将视频模板中的人脸替换成用户上传的人脸。法院经审理认为,被告A公司未经楼某某同意,利用深度合成技术使用楼某某肖像制作了伪造视频,依法应认定为构成对楼某某肖像权的侵害。
在教育领域,生成式AI应用同样存在风险。天风证券4月6日发布的研报指出,教育领域中,全球多国大学、科研机构发布明确的人工智能禁令,禁止使用ChatGPT和其他所有基于人工智能的工具完成学习与考试任务;多家期刊、出版机构也禁止将ChatGPT列为论文合著者。曾有美国的大学教授发现有学生提交了ChatGPT写的论文,并将该论文输入到ChatGPT中询问是否由它所撰写,ChatGPT答道:“99.9%的概率是的”。
生成式AI应用的数据泄露问题同样令人担忧。4月10日,中国支付清算协会发布关于支付行业从业人员谨慎使用ChatGPT等工具的倡议,称此类智能化工具已暴露出跨境数据泄露等风险。另据国际技术经济研究所消息,三星员工直接将企业机密信息以提问的方式输入到ChatGPT中,导致相关内容进入学习数据库从而可能泄露给更多人,被公司告知谨慎使用ChatGPT。
同时,生成式AI所带来的版权问题仍有待厘清。中国信息通信研究院2022年发布的《人工智能生成内容(AIGC)白皮书》指出,2020年腾讯公司诉网贷之家网站转载机器人自动撰写的文章作品一案中,深圳南山区法院认为在满足独创性要求的情况下,人工智能撰写的文章属于著作权保护的作品。法律概念的模糊引发司法裁判的翻转,导致生成式AI作品存在着著作权归属不清的现实困境。
监管
事实上,生成式AI发展过程中出现的合规性、数据隐私、版权等风险问题,在全世界都是亟待解决的监管挑战。
南都记者注意到,意大利个人数据保护局此前宣布,暂时禁止使用聊天机器人ChatGPT,并表示已对ChatGPT背后的OpenAI公司展开调查。4月3日,德国联邦数据保护专员发言人称,出于数据保护方面的考虑,可能会暂时禁止在德国使用ChatGPT。此外,欧盟也表示希望对AI生成的内容进行强制性的规定,或要求所有生成式AI内容必须注明来源。
在业内专家看来,生成式AI既有优势,也有隐患。“生成式AI的发展,可以提高工作效率,减少一些繁琐枯燥的重复劳动,让我们更好地将精力放在一些AI无法替代人类、主观能动性更强的地方上。”广东工业大学信息工程学院副教授卢永毅告诉南都记者。
IDC中国研究总监卢言霞在接受南都记者采访时表示,生成式AI的技术尚处于起步阶段,但前景可期。在现阶段,生成式AI可能面临一系列的监管问题,比如伪造商品评论进行虚假营销,生成钓鱼邮件骗取个人信息,侵犯知识产权,编造谎言制造阴谋论等。
在法律层面,国标律师事务所律师姚克枫向南都记者指出,AI换脸存在侵犯他人肖像权的法律风险。生成式AI如果涉及到动画或者美术作品,可能还会侵犯他人的著作权甚至专利权,如果是生成一些特殊文字,可能会存在商标权的问题。另外,以ChatGPT为例,在聊天交互的时候,机器人后台可能会获取到出生日期、位置等个人隐私信息,一旦发生数据泄露或被黑客攻击,用户的隐私数据就没有了保障。
生成式AI在快速迭代发展的过程中遇到问题,需要政府监管和行业约束的共同规范。除了监管部门及时推出的管理办法,行业内也逐渐发展起了针对AI合规及内容甄别的细分赛道。
南都记者关注到,人民日报社传播内容认知全国重点实验室等机构联合推出了国内首个AI生成内容检测工具AIGC-X,可以快速区分机器生成文本与人工生成文本,还能对AI技术生成的假新闻、内容抄袭、垃圾邮件进行检测。此外,新华网旗下新华智云的事实核查机器人能实现对视频、音频、图片、文本等内容的统一审核。
对于国家互联网信息办公室近日发布的《生成式人工智能服务管理办法(征求意见稿)》,卢言霞表示,“我认为这次监管来得很及时。”在她看来,对生成式AI的监管可以重点放在生成内容的安全合规使用、训练时对隐私数据的使用等方面。而人工智能在不断发展中面临的风险问题不能穷举,可能还需要人工介入和审核。除了有关机构的监管,业内也可以自主形成联盟来进行自我约束。
在行业规范化层面,吴沈括则建议,最大程度引入多方参与治理,及时传递和形成必要的共识,并汇聚各方的关切和诉求。此外,以此为基础,及时、高效、科学地形成具有高度确定性和明确性的监管规则,设定监管标准,最大范围地及早引导各方主体的业务行为和应用行为,培育良好的合规监管体系。
此外,他建议,积极引入敏捷、高效、便利的监管监督机制和方式,为技术的发展提供良好的监管环境,同时对于红线风险和高危风险做出坚决的、必要的回应,最大限度缓解风险和挑战。
出品:南都即时
采写:南都记者冯奕然敖银雪杨天智实习生陈健良
人工智能“生成物”有版权吗属于谁
数字法治带来的是整个法律制度的变革。在版权保护领域、知识产权领域、反垄断领域都要利益平衡。在数字时代,成为透明人的人类将面临人权将如何保护。
如何界定与保护数字化作品的版权?
对外经济贸易大学法学院教授卢海君认为在探讨数据挖掘的过程中,怎样去解决版权授权付费的问题,并不是任何东西都是可版权的,其中包括很多数字化作品。
ChatGPT用的是全网抓取的数据,那么这些数据当中存在有版权保护的作品,和没有版权保护的作品。如果都需要通过版权这个路径来解决,就会存在很多的坎坷。
GPT所生成的内容,它的创作者是人吗?有意识吗?有思想吗?有感情吗?创作出来的东西是不是思想情感的外在表现?现行著作权法的回答仅是这个东西可能还不能够完全的嵌入到著作权法当中,可以在正确认知数据二元性基础上来寻求人工智能数据挖掘问题的解决方案。
数据具有二元性,它之上可能有个人信息、公共利益、版权保护的作品、科学的数据、商业机密等在内,都可以受到一定程度的保护。比如说专利权、商业秘密权还有版权的保护,但是它跟数据本身之间有区别,数据是它的载体。
从数据的二元性本身的认识出发,解决人工智能数据挖掘当中的问题,可能是更加可行的一个方案。从作品的版权保护的角度来去衡量这个问题很难解决,包括很多数字化作品是没有版权保护,而不是在于说数据上承载的这个作品有没有版权。
卢海君教授强调人工智能产业发展是大势所趋,不应为人工智能产业的发展设置太多的障碍,在人工智能数据挖掘的问题上,应关注数据本身,而不是数据上承载的内容,企业可根据数据的价值付费,如果想有更优质的数据,开发者可以购买各种数据包,以开发出更具有竞争力的人工智能产品。他同时建议权利人和产业界加强对技术保护措施的运用。
大模型推动下的数智化场景应用
澜舟科技创始人兼CEO、中国计算机学会副理事长周明认为,以ChatGPT为标志的大模型产品,代表着语言理解、多轮对话、问题求解进入了一个可实用的时代,有效解决了自然语言处理中任务碎片化的问题,大幅度提高研发效率,标志着自然语言处理进入工业化实施阶段。
但目前生成式人工智能产品在专业领域的落地使用并不是简单的事,在它的构想中,需要进行三个层次大模型——通用大模型、行业大模型、任务大模型的训练。生成式人工智能产品才有可能逐渐从通用走向专用,大幅度提升个人和企业的工作效率。
数传集团CEO施其明结合人工智能在数传集团发展中的一些经验和做法,谈了他对生成式人工智能版权价值的看法。
AIGC在图书的服务领域运用的场景还是非常非常多的。在各类的内容生成,用户之间的交互、机器人和人之间的交互当中,很多读者在通过智能化服务之后,会产生的后续的付费、阅读的满足感、阅读的延展性阅读,这其中的90%都是AIGC的机器人在与读者做互相的交互。
针对AIGC运用场景下的资源服务,数传集团也历史上第一份和人签的数字人的版权。当然这个版权的定义现在很不清晰,也是非常直接的版权问题。版权的价值在哪里?
伴随版权疑问,其实源于AIGC的版权的商业价值就会逐步出现。近期,日本、美国已经有专门针对元宇宙版权和数字人版权相应的采购机构,他们认为及早的布局这些版权市场对未来的价值是很强的,就像及早布置数字图书、有声图书、电影版权等……
提早布局这个版权市场,在未来生成式人工智能的版权定义清晰化之后,可以形成巨大的经济效益。
AIGC时代,开启数字版权保护新格局
从OpenAI推出的GPT系列,一直到现在GPT4.0标志性的产品出现,已经证明人工智能达到了人类的智能水平,2023年也被称之人工智能的历史性时刻。
AI技术的发展,其实对于内容产业,尤其是数字内容产业带来全新的机遇。
在整个AIGC领域,高质量的数据是AI模型的底层基石,从大数据转移到高质量数据,这是至关重要的。AIGC产生的新型内容产品过程中,AIGC模型很难去保证数据质量的准确性或者答案的准确性。
欧盟在首例AIGC的侵权案件发生之后公布了一项新的法律提案——人工智能法案,这也是全世界第一部人工智能的立法,即将在2024年正式生效。
那么如何去构建数字内容的版权保护体系?中文在线董事长兼总裁童之磊提到:首先提供高质量的数据,其次是强化版权服务,第三是构建版权保护的联盟。AI今天带来的版权挑战,既然是以技术为起因,那就应该以技术去应对,从而去解决AI产能认证的新的版权挑战。
关于AIGC和ChatGPT,从版权角度ChatGPT的训练过程使用了大量的数据和文本,清华大学新闻学院教授、元宇宙文化实验室主任沈阳认为从文本的角度走向多模态的角度,数据的预训练是第一个涉及到版权的阶段。生成的内容是需要由提示词来引导,那这个提示的版权怎么样进行保护?提示语的版权保护,未来应该也将会成为一个需要保护的领域;AIGC自己产生的数据AIGD,相当于二次数据,从一次数据到二次数据的版权保护。内容的这种一种数据的保护,其实也包括了行为数据的保护。
携手保护数字版权,开启AIGC版权保护的新的格局。进一步完善数据相关的立法,推动在现有法律框架和未来新的法律框架下的司法保护。
国际应对人工智能生成及内容版权司法保护的监管政策
鉴于人工智能技术爆发出的一个巨大的生产力,目前人工智能生成的内容占所有内容不到1%,但是有数据来预测,将在很短的时间达到10%,甚至更高。
北京互联网法院综合审判一庭副庭长朱阁结合自身的工作环境,谈了她对人工智能生成内容版权司法保护的实践与思考:通用的人工智能,可以像人一样进行感知、理解和交互,也存在人可能被塑造、被取代,社会财富分配不均衡等风险。
我国作为相对较早监管人工智能技术的国家之一,整个法律体系对人工智能技术都有相应的规制和服务管理办法。未来的发展思路促进发展同步的进行依法的治理与规范,在全球合作的法律体系下,共促发展、共护安全、共享成果。
国际上不同的国家有不同的监管政策:意大利比较明确禁止使用ChatGPT;德国、加拿大等国家也表示出于数据保护的方面的考虑,将禁止使用ChatGPT,或者采取更加严格的监管;欧盟在最新的立法草案中提出应该严格禁止对人类安全造成不可接受风险的人工智能系统,同时要求人工智能公司对它的算法保持人为控制提供技术文件,并且要为高风险应用建立风险管理系统;美国在今年1月份发布的一个人工智能的风险管理框架,实际上也是一个发展和治理的这么一个思路。
那么,关于人工智能生成内容是否能够获得版权保护,具有两种观点,一种是不能构成作品,是从人工智能生成物的过程来进行分析,从机器属性和人在其中的参与程度进行的分析,还有认为它可以纳入临界权的制度进行保护。
比如澳大利亚的一份报告认为计算机生成的内容无法达到独创性的要求,只能作为临界权的客体进行保护。日本认为它是作为一个道具被使用,所生成的内容不是日本著作权法规定,就不存在对它享有著作权。
第二个观点是认为人工智能生成物只要在外在表达形式上与人类创作的作品一致。大模型所生成的内容,它显然在表达上与人类基本是一致的,就可以作为作品来进行一个保护。
中国科学院大学知识产权学院副教授、中国科技法学会人工智能法专委会执行主任刘朝分享了对国外生成式AI训练内容相关版权诉讼的思考。
现在案例中因为新技术出现的时候,关于法律能够对现有的技术规制多少?核心的问题就是生成出来的训练数据中包含未经许可的作品或片段,所以才会产生诉讼。针对这样的情况,现有的法律框架中存在哪些风险和问题?
首先,衍生作品的界限判断,衍生作品本来在版权法中不被认为是一个有多大争议的,但是现在由于生成式的AI训练数据出来的衍生作品恐怕人们要重新探讨和认识,这是一个合理使用的判定。其次,商业和商业信息的风险输入的时候,存在风险的商标侵权。最后,关于版权许可,按现在的新技术的发展,真的是不能解决的吗?
刘朝教授举例,美国在这样看似这种乱象下出了一个计算机统一信息交易法,它不仅站在软件企业中自己的交易规则,把软件企业突破合同法和版权法的交易规则上升为联邦层面统一基本法,同时要求各州使用这个法律。
针对衍生作品的界限判断、合理使用的判定、商业秘密的风险、版权许可等风险和问题,她认为通过保持著作权的基本逻辑,充分发挥政府、企业和第三方机构的作用,构建创新的商业模式和交易规则,可以解决目前存在的大部分问题。
人工智能是新一轮科技革命的头雁,汇聚共同的智慧,对企业、社会产生重要的价值。数据训练模型的数据使用问题、文本挖掘问题,以及我们人工智能生成的内容的相关的版权问题,在遵循着国家对人工智能的整体发展的思路下,需要在现行法律的框架下对其进行思考、反思,完善或建立新的制度。
编辑:Kean返回搜狐,查看更多
追踪人工智能监管政策新进展
当地时间2月7日,美国微软发布了由ChatGPT制造商OpenAI的最新技术提供支持的新版必应(Bing)互联网搜索引擎和Edge浏览器。图为与会者与微软必应搜索引擎和Edge浏览器进行互动。图片来源:CFP
美国国家标准与技术研究院(NIST)于1月发布了《人工智能风险管理框架》(AIRMF)(以下简称《框架》)1.0版,可供相关组织设计和管理的可信赖和负责任的人工智能,旨在指导机构组织在开发和部署人工智能系统时降低安全风险,避免产生偏见和其他负面后果,提高人工智能可信度。2月15日,美国布鲁金斯学会技术创新中心特聘客座研究员卡梅伦·克里(CameronKerry)于该机构官网发文表示,《框架》代表了美国人工智能政策领域的新进展,有助于丰富当前正在进行的关于人工智能发展与政策的国际讨论。
核心功能与路线图
NIST隶属于美国商务部,主要从事物理、生物和工程方面的基础和应用研究,以及测量技术和测试方法方面的研究,并提供标准制定、标准参考数据及有关服务。随着科学技术在经济和社会中发挥的作用越来越大,NIST在政府、科学技术、商业等交叉领域中的作用日益增强。《框架》的形成主要是响应美国《国家人工智能倡议法》(NationalArtificialIntelligenceInitiativeAct)的要求,并遵循了NIST此前发布的信息风险管理和治理框架模板,其中包括2014年的《网络安全框架》与2020年的《隐私框架》。
人工智能作为一种通用技术,涵盖了广泛的技术、数据源和各类应用,其广度给信息技术风险管理带来了独特的挑战。因此,《框架》在其风险管理方法中引入了“社会技术”维度,涵盖了“社会动态和人类行为”,涉及广泛的参与者和利益相关者。与此同时,人工智能的发展引发了人们对其带来的风险与收益的广泛讨论、对人工智能训练数据和输出偏差的担忧以及对什么是可靠和值得信赖的人工智能的思考。为此,《框架》提供了应对以上问题的两个视角。
一是为识别人工智能环境中的风险提供了一个概念性路线图,概述了与人工智能相关的一般风险类型与来源,并列举了可信赖的人工智能的七个关键特征:安全、可靠和有韧性、可解释性、隐私增强、公平、负责任且透明、有效且可靠。二是提供了一套评估和管理风险的组织流程和活动,将人工智能的“社会技术”维度与人工智能系统生命周期的各个阶段,以及相关参与者联系起来。这些过程和活动的关键步骤是“测试、评估、验证和确认”,并被分解为治理、映射、测量和管理四大核心功能,每个功能项下还分为不同的类别和子类别,通过多元化展开,帮助机构组织在实践中应对人工智能系统带来的风险和潜在影响。
但是,《框架》作为“1.0版本”,并非人工智能风险管理的最后版本,反映了人工智能标准制定的早期阶段,仅包括了对国际标准化组织(ISO)、国际电工委员会(IEC)等国际标准机构的标准,以及经济合作与发展组织(OECD)指导方针的少量参考。该机构预计会在2028年之前进行全面、正式的审查,可能会产生2.0版本。这种迭代方法可以帮助《框架》适应人工智能技术的变化,并随时作出调整。《框架》文件中有关可信任人工智能的特征,也有待进一步了解。从目前来看,《框架》的核心功能及其项下的子类别就像路线图,展示了通往可信任人工智能道路上的步骤,但具体还要取决于应用《框架》的组织机构能否从这些路线中拼凑出自己的道路。
制度基础与实施机制
《框架》建立在《网络安全框架》与《隐私框架》的基础上。《网络安全框架》的关键目标是塑造和促进网络安全领域标准与实践的发展,该框架已被绝大多数美国公司应用,包括美国证券交易委员会在内的各种机构将《网络安全框架》作为受监管行业健全网络安全实践的基准。然而,《隐私框架》并没有产生与《网络安全框架》相同的影响。当《隐私框架》发布时,欧盟的《通用数据保护条例》(GeneralDataProtectionRegulation)和《加州消费者隐私法案》(CaliforniaConsumerPrivacyAct)都已经生效,引发了许多美国公司制定隐私设计和合规计划。这种较为完善的环境限制了《隐私框架》在隐私和数据保护标准、实践和流程领域发挥作用的空间。
欧盟和加拿大都在对人工智能进行立法,新加坡为可信赖的人工智能制定了自愿测试框架,经合组织的一个工作组建立了可信赖的人工智能工具包。《框架》发布之前,美国于2022年10月发布了《人工智能权利法案蓝图》(以下简称《蓝图》),这是一套保护个人免受伤害和歧视的原则,并配有相关技术方案,确定了人工智能系统影响这些原则的具体方式,以及应对不利影响的一般步骤。而《框架》提供了在各种组织中实施《蓝图》原则的工具。
与欧盟的人工智能立法相比,《框架》不具有法律效力,从性质上来讲是非强制性的指导性文件,供设计、开发、部署、使用人工智能系统的机构组织自愿使用。此类框架比约束性法律更容易在应用中实现更新迭代,但需要依靠软法机制来发挥其影响力,无法确保一定会被采用。在欧盟拟议的人工智能法案下,人工智能系统属于高风险类别,需要接受全面评估,其中涉及人工智能定义的范围、通用人工智能的应对等,已经成为欧盟立法辩论的症结所在,而且具有法律约束力的框架往往对措辞的准确性要求较高,同时不容易提供定制方案。总的来看,无论是欧盟的“硬”监管,还是美国的“软”治理,各国政府和社会都刚刚开始理解人工智能,其监管仍然处于摸索阶段,未来还有很长的一段路要走。
(龙豪/编译)