人工智能(AI)艺术正在挑战策展的边界
与任何新颖的工具一样,生成模型引入了艺术制作过程中的重大变化。特别是,人工智能艺术扩大了策展的多面性概念,继续模糊策展和创作之间的界限。
用人工智能制作艺术,至少有三种方式可以涉及策展行为。第一点,也是最不具有原创性的一点,与输出的管理有关。任何生成算法都可以生成无限数量的图像,但并不是所有的图像都会被赋予艺术地位。策展作品的过程对摄影师来说是非常熟悉的,有些摄影师通常会捕捉数百或数千张照片,其中的一些(如果有的话)可能会被精心挑选出来展示。与画家和雕塑家不同,摄影师和人工智能艺术家必须处理大量的(数字)对象,它们的策展是艺术过程的一部分。在整个人工智能研究中,“挑选”特别好的结果的行为被视为糟糕的科学实践,这是一种误导性地夸大模型感知性能的方式。然而,当涉及到AI艺术时,“精挑细选”可能是游戏的名称。艺术家的意图和艺术情感,可以通过将特定的作品提升为艺术品的行为来表达。
第二,策展也可能发生在任何图像生成之前。事实上,“策展”应用于艺术通常指的是,选择现有作品进行展示的过程,而在人工智能研究中,策展通俗地说指的是制作一个数据集,并在其上训练人工神经网络的工作。这项工作是至关重要的,因为如果数据集设计得不好,网络往往无法学习如何表示所需的特征并充分执行。此外,如果一个数据集有偏差,网络将倾向于复制,甚至放大这种偏差。包括,例如,有害的刻板印象。俗话说:“垃圾进,垃圾出。”这句格言同样适用于AI艺术,除了“垃圾”具有审美(和主观)维度。
上图:《路人的回忆I》
人工智能艺术的先驱之一、德国艺术家马里奥·金尔曼(MarioKinglemann)在其作品《路人的回忆I》(2018)中,精心策划了17至19世纪数千幅肖像的数据集。然后,他利用这个数据集训练生成算法,这些算法可以生成无限多的共享相似审美特征的新颖肖像,并在两个屏幕上实时显示(一个女性肖像,一个男性肖像)。这是一个不涉及输出管理的AI艺术品的例子。然而,训练数据的精心管理在其概念中发挥了根本作用。在这里,“偏见”是一种祝福:根据艺术家个人的审美偏好和品味,数据集存在严重的偏见,这种审美偏见反映在最终的艺术作品中,尽管是通过电脑驱动的生成过程的扭曲镜头。
生成算法最近的进步所带来的另一个新奇之处是,通过用自然语言描述所需结果来生成图像的能力。这就是所谓的“提示”,或者用文本提示来引导算法,而不是对随机输出进行抽样。
在某种程度上,能够用文字来提示生成算法,可以让创作过程更容易、更集中。它可以减少对输出的管理的需要,因为人们可以直接描述自己的愿景。然而,提示并不是使艺术创作变得平凡的灵丹妙药。它更像是一种新的创造性技能。人工智能研究人员甚至用“模板工程”来描述制作好的提示以获得预期结果的过程。
“模板工程”更多的是一门艺术,而不是一门科学,尤其是在创造性地使用人工智能方面。它甚至被比作炼金术或咒语。除了对最终产品有一个独特的愿景外,人们还必须对能够使用任何给定算法解锁特定风格或主题的魔法词的正确组合有一种感觉。这就是人工智能艺术引入的第三种,也许是最新颖的策展形式:精心设计和收集个人提示或提示片段,从算法中得出预期的结果。
随着像Dall·E2这样预先训练的算法的使用开始消除对数据集管理的需求,即时策展提供了另一种发展个人艺术风格的方式。有趣的是,它还将图像与文本对话,就像传统的博物馆策展一样,尽管形式不那么学术化,往往更具诗意。就像艺术评论一样,提示语可以是非常字面的(“一个人站在玉米地里,低角度,35毫米人像摄影”),也可以非常抽象(“生命的无法承受的轻盈”)。无论哪种方式,提示都会给艺术品带来一层新奇的解读。一些艺术家喜欢分享他们的提示,甚至可能把它们用作他们作品的标题;另一些人则更喜欢把它们藏起来,把产生的图像留给人们去解读。
上图:毕加索的版画系列《公牛》(1945)
提示的管理和输出的管理经常会交织在一个创造性的反馈循环中。人们可以尝试给定的提示,了解它可能产生的图像,然后使用新知识迭代的改进提示,在过程中挑选出有趣的输出。这个循环可以一遍又一遍地重复,直至无限。这让人想起传统艺术家在一个共同主题上探索变化,比如毕加索的版画系列《公牛》(1945),他在其中描绘了一只处于不同抽象阶段的公牛。一个值得注意的区别是,提示程序总是包含生成随机性所保证的惊喜元素:没有任何提示会两次产生完全相同的结果,提示中的微小变化,可能会对输出产生意想不到的巨大影响。
艺术家和策展人之间界限的模糊并不新鲜。虽然,策展最初被视为仅仅是一种管理工作,其任务是保存和展示博物馆中的艺术品目录,但自20世纪60年代以来,策展本身已被认为是一种创造性的姿态。策划一场展览,通常涉及刻意采用一种特定的概念或视角,为一组艺术品带来新的光芒。像CarolynChristov-Bakargiev和HansUlrichObrist这样的明星策展人以艺术家的方式对待他们的作品,并在塑造当代艺术和策展的话语中发挥了重要作用。相反,马塞尔·杜尚(MarcelDuchamp)等艺术家自己策划了标志性的活动,并在展览媒介的现代化中发挥了关键作用。策展本身作为一种创作过程,它可以成为艺术品味的一种深刻的个人表达。生成性算法的进步通过引入新的策展手势,在创作过程的几个阶段引导艺术家的审美感觉,为艺术和策展之间的交叉授粉创造了更多的机会。
人工智能艺术的这些策展方面,最终可能会渗透到博物馆或数字展览的策展实践中。例如,展示人工智能艺术的机构将需要决定提供多少有关数据集的信息,用于生成特定艺术品的算法是根据这些数据集训练的。苏富比在《路人记忆I》的目录说明中提到,训练数据集包含17至19世纪的肖像画,这为理解艺术品及其艺术历史谱系提供了相关背景。如果一个提示被用于创作一件作品,并由艺术家沟通,策展人可能会决定在他们的展示中包含和反思它。与策展人是(AI)艺术家的想法一致,人们也可以设想一个展览,在这个展览中,根据算法分配给它们的标题的相似性来选择传统艺术品(参见Google艺术与文化以了解类似的实验在数字策展中)。有一件事是肯定的:人工智能研究的技术创新,将继续以令人兴奋和不可预测的方式影响艺术创作和策展,为新形式的创造力提供肥沃的土壤。
如果朋友们喜欢,敬请关注“知新了了”!返回搜狐,查看更多
人工智能艺术作品,创作门槛更高!当算法成为创作工具,艺术家还能PK过机器吗
设想一个场景,当人工智能遇上传统餐厅,将带来哪些颠覆性的设计?是一家餐厅全部实现无人化,由机器人提供服务;还是在人工智能的赋能下,通过创意设计改变餐厅的供应方式,使得顾客到店后对菜品结构、份量乃至制作过程一目了然而后精准点单,减少浪费、提升到店体验?
这是同济大学副校长兼设计创意学院院长教授娄永琪经历的一场真实设计案例。在由同济大学主办、同济大学设计创意学院承办的艺术与人工智能国际论坛上,他指出,当前我们正处在一个被人工智能淹没的时代,在人口基数庞大的中国,如果简单将人工智能理解为无人化,或许是一种对技术的误读。“将人工智能引入设计将会提供一个新场景,而这个新场景应当把技术藏到生活当中,从而让人们更好地,更有尊严地生活。”
人工智能究竟将如何拓宽艺术创意的边界,更好地服务社会?在这场论坛上,同济大学设计创意学院做出了率先尝试,成立艺术与人工智能实验室(AAI),致力于艺术和人工智能技术的交叉学科应用研究。未来,这个探索平台将聚集众多设计、计算机科学、文化研究等领域的学者、艺术家,他们将共同研究智能算法在创意和艺术领域的应用,打造一批具有引领性的人工智能艺术作品,并最终实现产、学、研、创的转变。
人工智能,为设计注入更多改造社会的力量
长期以来,艺术设计被视为一种小众的专业,“看不懂,太专业,不实用”甚至成为很多人对创意设计作品的刻板印象。
娄永琪指出,艺术是一种需求,人类的精神需要通过艺术来启蒙,而设计是一种潜力,它用来改造社会,具有改变的力量。“同济大学设计创意学院成立于2009年,之所以定名为设计创意学院,就是刻意把艺术和设计分开,更多地把设计和创新相联系,而不仅仅停留在艺术层面。”娄永琪打了个比方,如果用一个十字坐标系来表达整个设计领域,X轴是个体到社会的创造,Y轴则为从专业创造到日常生活。“设计是无处不在的,我们想把设计作为一种力量,从个体、专业的创造拓展到社会层级的,日常生活的创造。”
但问题恰恰在于,随着人工智能时代的到来,如今单纯的艺术已经很难给设计带来鲜活的创造力。娄永琪表示,引入人工智能,可以让设计得到再次“启蒙”和“唤醒”,这也是艺术与人工智能实验室建立的初衷。
院方介绍,新成立的艺术与人工智能实验室明确了三步走的计划——
第一步,通过艺术家、科学家的合作探索明确人工智能艺术的概念和边界;
第二步,搭建实验室平台完成技术突破,打破技术壁垒,让更多艺术家走进智能创作行列;
第三步,搭建孵化平台,让更多的创意设计作品实现产出和孵化。
“同济不仅汇聚了人工智能领域的科学家、算法专家,也有美术和设计实力雄厚的艺术家,更具有产业孵化的良好土壤,未来环同济知识经济圈将把人工智能艺术发展为将创意、艺术与产业高度整合的全链条。”娄永琪说。
人工智能艺术的门槛更高,需要复合型人才
当人工智能与艺术结合,会碰撞出怎样的火花?在上海嘉定南翔印象城,途经者会看到一只“鹤”扇动着翅膀,翱翔在天空,并俯瞰着整个城市。这只巨大的不锈钢“飞行鹤”,其实是一件翼状机械动态装置雕塑作品。它由数字艺术家张周捷和他的团队打造的,其重量达1.5吨,翼展长达13米,从而创下了世界迄今为止规模最大的飞行动态数字装置的纪录。
张周捷也是艺术与人工智能实验室发起人之一。他在调研中发现,目前世界范围内的人工智能艺术作品多呈现在视觉层面,但人工智能艺术还可以有更多可能。因此,未来实验室将携手众多人工智能艺术家拓展表现形式,在雕塑、装置、行为艺术等方面做出尝试。而未来的人工智能艺术作品,无论在在技术难度还是感官效果上都会超过这只“数字鹤”。
如果说,过去艺术家做一个雕塑从画草图开始,画完图,创作就已经完成,张周捷介绍,数字艺术家会利用计算机来创作造型,让数字状态的雕塑实现了造型可变。而人工智能艺术作品的技术性和延展性会更强。“它在形成以后将不再受创作者控制,它可以自己适配,可以跟观赏者共鸣,带来强烈的冲击力。”张周捷指出,目前人工智能之于设计,更像是一个黑盒子,“从输入到输出结果,中间没有必然逻辑性,它有自己的认知体系。”就像在相机发明以前,人们难以想象何为照片,当下人们也难以想象一幅人工智能作品的庐山真面目,因为算法将通过深度学习不断更新迭代。
丹尼尔·安布罗西《梦空间》,2016-2021,计算摄影+人工智能(艺术家供图)
正因如此,人工智能艺术的门槛更高。“人工智能艺术家需要复合型人才,他们不仅需要有良好的审美、艺术观念,对艺术史的了解,还要有很深的技术储备、技术理解和洞察力,以及哲学的思考等。”张周捷表示,好的人工智能艺术作品将会是艺术家与科学家、算法专家跨界合作的成果。为了更好地推动跨界合作,此后,实验室将每年举办一次论坛,并在今年9月份举办一个大型展览,让更多顶级人工智能艺术家带着作品来到中国,并鼓励艺术家们以上海这座城市为母题进行创作。
当人工智能成为创作工具,艺术家会消失吗
那么,随着算法的迭代更新,智慧的机器是否会取代人类的智慧?21世纪下一位伟大的艺术家将来自计算机算法?在艺术领域的人机PK中,人类艺术家是否会占下风乃至于失业?
张周捷给记者举出一个例子。他说,放在艺术馆中进行展览的照片,既可以是专业单反相机拍摄而成的,也可以是傻瓜相机拍摄的作品,尽管后者在画质上并不优于前者,但如果它具备较高的艺术性,能给人带来强烈的情感震撼,同样也是一件优秀的艺术作品。
“在我看来,艺术不仅是技术的产物,更关乎人的创造力和情感投入。”张周捷猜想,在未来,人工智能技术或许会发展为类似Photoshop或“美图秀秀”的创作工具,让每个人都可以用人工智能技术进行创意创作。
“人工智能的魅力就在于它用新的工具创造了新的艺术形式,这种形式不仅生动还具有很强的传播性和感染力。”张周捷说,“艺术就是传播信息。相比照片,视频传播的信息量远远高于一幅静态的画,而未来的VR沉浸式艺术作品给人们带来信息量更大,冲击力会更强。”
作者:吴金娇编辑:储舒婷责任编辑:樊丽萍图片:主办方供图人工智能“作品”,著作权谁属
原标题:人工智能“作品”,著作权谁属树影压在秋天的报纸上/中间隔着一片梦幻的海洋/我凝视着一池湖水的天空……
这么优美的诗句不是出自哪个诗人之手,而是来自人工智能――微软“小冰”。2017年5月,“小冰”创作的诗集《阳光失了玻璃窗》正式出版,这部诗集是“小冰”在学习了519位诗人的现代诗、训练超过10000次后创作完成的。
除了微软“小冰”,其他公司也开发了众多人工智能产品用于创作各类文学和艺术“作品”。例如,谷歌开发的人工智能DeepDream可以生成绘画,且所生成的画作已经成功拍卖;腾讯开发的DreamWriter机器人可以根据算法自动生成新闻稿件,并及时推送给用户。这些由人工智能创作的成果从外观形式来看,与人类创作的成果没有任何区别,而且也很难被察觉并非由人类所作。可以说,与以往技术创新相比,人工智能技术对著作权法提出的挑战是最根本,也是最全面的――
一是人工智能的主体资格问题。根据我国著作权法的规定,作者包括自然人作者以及法人作者;前者是指创作作品的公民,后者是指作品在由法人主持,代表法人意志创作,并由法人承担责任时,将法人视为作者。要承认人工智能是作者,事实上也就意味着要在著作权法上创设一种新的独立法律主体,这将遇到极大的法律和伦理障碍,在相当长的一段时间内恐怕都难以实现。
二是人工智能生成物的作品资格问题。著作权法基本理论认为:作品应当是人类的智力成果,也只有人的智力活动才能被称为创作。在人工智能生成物的著作权问题引起广泛关注之前,法学界曾讨论过动物产生的内容可否构成作品的问题。例如:在美国,一只黑猕猴使用摄影师的相机拍摄了几张自拍照,其著作权问题甚至引发了两起诉讼。为此,美国版权局还专门发布相关文件,强调只有人类创作的作品才受保护。有学者认为,人工智能生成物并非人类作者的智力成果,因此不构成作品。也有学者认为,人工智能生成物是由人类作者设计的作品生成软件产生的成果,实际上是人机合作的智力成果,并没有违背著作权法的人格主义基础。
三是人工智能生成物的权利归属问题。目前提出的方案主要有3种。第一种方案是承认人工智能生成物是作品,但是不给予保护,将其投入公有领域。主要理由是著作权法的立法目的在于鼓励作品的创作和传播,而机器无须激励。第二种方案是创设一种新的邻接权制度,以区分人工智能生成的作品与人类创作的作品。第三种方案是在现行著作权法框架下,通过法律解释的方式作出适当的法律安排。至于是将著作权归属于人工智能的所有者、研发者还是使用者,意见尚未统一。
四是人工智能生成物的侵权问题。人工智能在进行“机器学习”过程中,需要使用大量已有作品。例如,“小冰”是在学习了众多现代诗之后创作的诗集,其中必然会有一些作品仍然处于著作权保护期内。那么,在未经作者授权的情况下,对其作品进行商业性利用是否构成侵权?普遍观点认为,为了促进人工智能发展,应当将“机器学习”过程中使用他人作品的行为作为例外处理。
对于上述问题的争论,以往都处于纯理论层面。让人振奋的是,在今年4月26日世界知识产权日当天,北京互联网法院对国内首例人工智能作品争议案作出了一审判决,为理论探讨提供了新鲜的实践素材。
对于主体资格问题,北京互联网法院认为,尽管随着科学技术的发展,人工智能生成物在内容、形态,甚至表达方式上日趋接近自然人,但根据现实的科技及产业发展水平,尚不宜在法律主体方面予以突破。就人工智能生成物可否构成作品问题,法院强调指出:虽然由人工智能生成的分析报告具有独创性,但是自然人创作仍应是作品的必要条件。在该案中,分析报告既不是由人工智能的研发者(所有者)创作,因为其并未输入关键词来启动程序;也不是人工智能的使用者创作,因为该报告并未传递其思想、感情。分析报告是人工智能利用输入的关键词与算法、规则和模板结合形成的,应当被认定为是由人工智能“创作”的。然而,构成作品的前提条件必须是自然人创作,因此,该分析报告不是著作权法意义上的作品。不过,法院也认为,应给予人工智能生成物以一定的法律保护,因为其具备传播价值。
笔者认为,对于人工智能生成物的著作权定性这一极具争议的问题,作为社会稳定器的法院采取相对保守、平衡的立场,是合适的。需要指出的是,如果人工智能生成物不被承认是作品,相关主体出于利益最大化的考量,很有可能会采取隐瞒相关成果是人工智能创作的事实,因为从外观形式上无法区分文学艺术作品究竟是人类还是人工智能创作。
有关人工智能生成物的著作权问题,有的国家已积累了一些经验。英国《1988年版权、外观设计和专利法案》规定,对于计算机生成的文字、戏剧、音乐或艺术作品而言,作者应是对该作品的创作进行必要安排的人。对计算机生成作品进行“必要安排”的人,可能包括人工智能的投资者、程序员、使用者,也可能是上述主体共同构成。因此该条款具有一定的开放性,赋予了法院较大的自由裁量权。
从历史来看,知识产权法领域一些重大的理论突破与制度创新,都是通过法院经由个案,通过不同观点的交锋、碰撞,甚至结论“反转”,最终达成共识来推动的。笔者相信,人工智能生成物的法律性质问题也将如此。未来,将有更多相关争议进入法院,让业界有更多的机会展开讨论,毕竟“真理越辩越明”。
(作者:万勇,系中国人民大学法学院教授)
(责编:龚霏菲、王珩)分享让更多人看到
人工智能AI 生成的艺术:从文本到图像
自从第一幅洞穴壁画出现以来,艺术一直是人类文化的主要内容。
这是我们表达自己和讲故事的一种方式。
近年来,人工智能(AI)取得了进展,人们一直在探索其在包括艺术在内的各个领域的可能应用。然而,对艺术的理解和欣赏被广泛认为完全是人类的能力。
在本文中,我们将探讨将AI引入循环中如何不仅可以促进数字艺术和艺术史领域的进步,还可以激发我们对艺术本身未来的看法。
以下是我们将介绍的内容:
人工智能生成艺术简史人工智能算法如何能够创造艺术与AI生成的艺术相关的挑战最佳AI艺术生成器和AI艺术品的示例
人工智能生成艺术简史首先,让我们把事情弄清楚一点。“人工智能与艺术”一般可以从两个方面来理解:
人工智能在分析现有艺术的过程中人工智能在创造新艺术的过程中我们专注于第二类,人工智能代理是产生新艺术创作的人。让我们看看人工智能生成艺术的演变。
AI生成艺术的历史可以追溯到计算机图形学和计算机发明的早期。
在1950年代和1960年代,计算机图形被用来生成简单的图案和形状。这些早期的AI生成艺术示例是使用基本算法创建的,以创建在计算机屏幕上呈现的图案。
例如,德国数学家和科学家弗里德·纳克(FriederNake)在1967年创建了一个名为“矩阵乘法”的作品集,其中包含12张图像,您可以在下面看到其中一张。
弗里德·纳克(FriederNake)的《无题》(1967)
Nake产生一个方阵并用数字填充它,然后将其依次相乘,并将得到的新矩阵转换为预定间隔的图像。
每个数字都被分配了一个具有特定形式和颜色的视觉符号。然后根据矩阵的值将这些符号放置在栅格中。Nake在他这一时期的工作中经常使用随机数生成,并且很可能,他的乘法过程是部分自动化的。
在1970年代和1980年代,人工智能生成的艺术开始在计算机辅助设计(CAD)中得到更广泛的应用。
CAD软件允许设计师在计算机上创建和操作3D形状。这允许创建更复杂和逼真的图像。例如,1973年,艺术家哈罗德·科恩(HaroldCohen)开发了一套算法,统称为AARON,它允许计算机以徒手画的不规则性进行绘图。
AARON被编程为绘制特定对象,科恩发现他的一些指令生成了他以前从未想象过的形式。他发现他已经设置了允许机器做出类似艺术决定的命令。
最初,AARON创作了抽象画,在1980年代和1990年代发展为更复杂的艺术,包括(按时间顺序)岩石、植物和人类的绘画。一个这样的例子如下所示。
由AARON制作的绘画,由HaroldCohen开发.
在1990年代,人工智能生成的艺术开始不仅仅用于视觉效果。艺术家们开始使用人工智能算法来生成音乐并创作新形式的诗歌。AI生成的艺术也开始用于机器人领域。机器人被编程来创作绘画和雕塑。
今天,人工智能生成的艺术被用于各个领域,包括广告、建筑、时尚和电影。人工智能算法用于创建逼真的图像和动画。人工智能生成的艺术也被用来创造新的音乐和诗歌形式。
最近用于艺术创作的人工智能的一个有趣例子是“人工自然历史”(2020年),这是一个正在进行的项目,通过作者索菲亚·克雷斯波(SofiaCrespo)所称的“自然历史书从来不是。”
克雷斯波基本上形成了一系列扭曲的生物,这些生物具有想象中的特征,需要全新的生物分类。这种艺术与大自然提供的无尽多样性相得益彰,而我们对此仍然知之甚少。人工自然历史中AI生成的样本示例如下所示。
人工智能生成的人工自然历史标本
人工智能如何用于创作艺术,包括算法和神经网络的使用人工智能用于创作艺术的方式有很多种。
AI算法可以根据一组参数生成图像或视频,或者通过组合和更改现有图像来创建新图像。神经网络可用于创建模仿特定艺术家风格的图像或视频,或创建与特定艺术类型相似的图像或视频。使用其他现有艺术风格生成新艺术作品的首选技术是通过生成对抗网络。当使用深度神经网络完成时,将艺术作品的风格转移到另一种艺术的方法称为神经风格转移(NST)。NST背后的主要思想是在2015年首次在本文中提出,为了获得输入图像风格的表示,使用最初设计用于捕获纹理信息的特征空间。这个特征空间建立在网络每一层的过滤器响应之上。它由特征图空间范围内不同滤波器响应之间的相关性组成。通过包含多个层的特征相关性,作者获得了输入图像的静止、多尺度表示,该表示捕获了其纹理信息,但没有捕获全局排列。作者通过实验发现,CNN中内容和风格的表示是可分离的。也就是说,两种表示都可以独立操作以产生新的、感知上有意义的图像。这一发现一直是人工智能生成艺术中使用的神经风格转移文献中提出的所有连续方法的基础。
除了神经风格迁移,还有其他算法可以创造人工智能艺术——
使用人工智能创造新艺术的最具革命性的算法之一是OpenAI的DALL·E2。DALL·E2仅使用用户给出的文本提示生成图像。在后面的部分中,我们将更详细地讨论DALL·E2的架构和功能。
GAN本文于2014年提出的生成对抗网络(GAN)通常由两个相互对抗的神经网络组成,以使它们都成为更好的学习者。
假设我们必须生成新图像来扩充用于图像分类的数据集。这两个网络之一称为生成器,即输出新图像的深度网络。另一个网络称为鉴别器,它的工作是对作为输入的图像是由生成器创建的原始图像还是假图像进行分类。
在连续的迭代中,生成器试图更接近地模仿原始图像来欺骗鉴别器,而鉴别器则试图更好地区分真实图像和假图像。这种对抗性游戏(极小极大问题)训练了两个网络。一旦训练循环完成,生成器就可以输出逼真的图像(与原始图像几乎无法区分),判别器已经成为一个很好的分类器模型。
GAN的一些流行应用是生成:
字体也可以使用GAN生成新的引人入胜(且一致)的字体,就像本文中提出的那样。人脸用于插图、电影人物等,减轻隐私顾虑。该网站显示了实际上并不存在的人脸图像,因为这些图像是使用StyleGAN2模型创建的。一个例子如下所示。卡通/动漫人物GAN也被用于生成卡通和动漫角色。这使作者能够获得关于人物绘画的新想法,甚至无需为他们的剧集绘制每一帧(视频序列)就可以创建场景。草图(Sketch)使用GAN生成草图有几个优点,例如使用多模态数据增强模型以进行风格转移、超分辨率等。它们也可以用作创建更复杂艺术的基础结构。使用SkeGAN模型生成的草图
AI生成艺术的好处和挑战现在,让我们看看使用人工智能创作艺术的利弊,并解决几个令人费解的问题。
AI生成艺术的一些好处包括:
生成真实或超真实数据使用AI生成的视频图像可用于电影,尤其是在现实生活中无法呈现的超自然场景。
有些艺术可能是人类无法创造的人工智能跳出框框“思考”以生成前所未有的样本,其中一些样本甚至可能很难或不可能让人类思考。这种艺术甚至可以成为更重要项目的灵感来源,即它们可以帮助人们获得新想法。
不断发展人工智能产生的艺术与人工智能模型的发展以及提供给此类模型进行训练的数据的演变一起不断发展。这允许新颖的想法在不停滞在饱和点的情况下流动。
人工智能生成的艺术面临的一些挑战包括:
缺乏人情味尽管人工智能创造出的逼真图像很容易欺骗任何人,但它缺乏制作艺术作品背后的人类情感和艺术背后的故事。这可能是许多人接受AI生成的艺术的一大障碍。
艺术可能是重复的或无聊的没有支持,人工智能不会产生新的艺术。我们给它提供我们已经拥有的数据来训练它。因此,在某种程度上,它产生的所有艺术都是衍生的(但它衍生自如此多的来源,以至于它在技术上成为新艺术)。因此,只训练过一次且训练过程从未使用新可用数据更新的模型可能会产生可能无趣的重复艺术。然而,像零样本学习或自我监督学习这样的新技术可以用新的可用数据训练现有模型,而无需从头开始重新训练模型。
对最终产品缺乏控制我们无法控制创作过程,因为一旦我们训练模型,它就会根据训练后的权重输出产品。我们无法在此过程中手动对其进行微调。
道德问题我们可能无法控制成品的发行、版权、使用或滥用。此外,人工智能生成的艺术可用于创建逼真的图像或视频,使人们相信某些不真实的东西。因此,其广泛的可访问性是福音还是诅咒是有争议的。
在谈论AI生成的艺术时,有两个主要问题让人们感到困惑:
你能卖AI生成的艺术品吗?是的,您可以出售他们的AI模型生成的艺术品。AI生成的艺术是增长最快的不可替代代币(NFT)之一。因此,任何人都可以使用AI创作艺术品并将其作为NFT在各种市场上出售。有几个流行销售AI生成艺术的例子。
例如,2018年10月,一个名为“EdmonddeBelamy”的艺术团体“Obvious”以432,000美元的价格售出了下图。虽然是AI模型创建了肖像,但这笔钱是由人类赚取的,即艺术团体是归功于这幅画。本文研究了应该因AI算法生成的艺术而获得赞誉的实体。
如果AI生成的NFT是您的一杯茶,您可能想看看AImade.art —AI生成的NFT艺术品的集合。
人工智能生成的艺术应该受版权保护吗?这是一个棘手的问题,因为每个人对此都有不同的看法。一些国家已经为人工智能生成的艺术启用了版权保护,而另一些国家则不同意。
一方面,该论点认为该算法是做这项工作的人,因此它可以很容易地被其他人复制,从而使版权主张无效。
另一方面,相同的人工智能算法将根据艺术家提供的训练数据产生不同的艺术。
因此,这个问题还没有“正确”的答案。尽管如此,到目前为止,人工智能生成的艺术是免费的。
最佳AI生成艺术和生成器示例在本节中,我们将仔细研究一些用于AI生成艺术的可用工具,并展示它们如何工作的示例。
其中许多工具都是开源的,因此您可以训练您的模型或使用现有的模型(有些可以免费使用有限次数)来使用AI创建您的艺术。
图像/图纸最新的AI生成的艺术方法已经在图像数据上进行了实验——逼真的图像和绘图。在本节中,我们将讨论一些目前可用于图像生成的最流行的AI模型。
从和2
DALL·E2是最近开创性的深度学习算法,可以根据使用自然语言(文本)提供的描述生成原始、逼真的图像和艺术。
它由OpenAI于2021年1月创建并发布。它是2020年12月发布的原始DALL·E算法的改进版本。DALL·E2还可以编辑现有图像并创建所提供图像的变体,同时保留其区分度特征。
本文提出的DALL·E2模型结合了两种值得注意的方法来解决文本条件图像生成问题——
CLIP模型是图像的成功表示学习器,而扩散模型是生成建模框架,在图像和视频生成任务中取得了最先进的性能。
DALL·E2包含一个扩散解码器,用于反转CLIP图像编码器。该模型的逆变器是非确定性的,可以生成与给定图像嵌入相对应的多个图像。
编码器及其近似逆(解码器)的存在允许超出文本到图像转换的能力。DALL·E2模型的高级架构如下所示。
使用CLIP潜在空间的一个显着优势是能够通过在任何编码文本向量的方向上移动来对图像进行语义修改,而在GAN潜在空间中发现这些方向需要运气和勤奋的手动检查。
资料来源:论文
DALL·E2的一些潜在实际应用包括:
创建照片般逼真的3D渲染为广告或产品设计生成图像创建新的艺术或可视化让我们看一些DALL·E2使用文字说明的AI生成艺术示例:
左边是“古色古香的花店店面照片,有柔和的绿色和干净的白色门面,敞开的门和大窗户”,右边是“穿着贝雷帽和黑色高领毛衣的柴犬”
以下是DALL·E2使用自然文本字幕生成的艺术作品示例:
左边:“用人类灵魂制作咖啡的浓缩咖啡机”,来源:Paper右边:“土星上穿着宇航员服的海豚”,来源:Paper
DALL·E2还可以通过反转其图像嵌入的插值在输入图像之间进行插值。DALL·E2通过使用球面插值在两个图像的CLIP嵌入之间旋转,产生中间CLIP表示并使用扩散模型进行解码来做到这一点。
中间变体自然地融合了两个输入图像的内容和风格。这种插值图像的示例如下所示。
与其他图像表示模型相比,使用CLIP嵌入的一个关键优势在于它将图像和文本嵌入到相同的潜在空间中,从而允许我们应用语言引导的图像操作。
为了修改图像以反映新的文本描述,DALL·E2首先获得其CLIP文本嵌入和描述当前图像的标题的CLIP文本嵌入。然后通过获取它们的差异并对其进行归一化来计算文本差异向量。
这方面的例子如下所示。
更多DALL·E2的艺术作品示例可在模特的专用Instagram页面上找到。您还可以与DALL·E2的小弟弟DALL·EMini一起玩,从您自己的文本中创建AI生成的艺术。
如果DALL·E2引起你的兴趣足以让你怀疑它是否可以取代人类,请观看此视频:
稳定扩散
StableDiffusion是一种革命性的文本到图像模型,与DALL·E2模型非常相似,但有一个非常显着的区别——它是开源的(与DALL·E2不同)——即可以使用和重新分发原始源代码免费,其他人可以从源代码中获取灵感来制作自己的模型。
该框架由机器视觉和学习小组、StabilityAI和Runway合作开发。StableDiffusion的完整实现在GitHub上提供,任何具有python基础知识的人都可以执行代码(运行代码的完整说明由作者慷慨提供)并免费生成自己的图像。
潜在扩散模型
稳定扩散建立在机器视觉与学习小组于2022年提出的潜在扩散模型(LDM)之上,该模型专为高分辨率图像合成而构建。作者使用LDM的目的是首先找到一个感知等效但计算上更合适的空间,在该空间中训练扩散模型以进行高分辨率图像合成。LDM框架的概述如下所示。
这种方法的一个显着优势是我们只需要训练一次通用自动编码阶段,因此可以将其重用于多个扩散模型的训练或探索可能完全不同的任务。这使得能够有效探索用于各种图像到图像和文本到图像任务的大量扩散模型。对于文本到图像的任务,作者设计了一种架构,将转换器连接到扩散模型的UNet主干,并启用任意类型的基于令牌的调节机制。
稳定的扩散架构
稳定扩散框架在来自LAION-5B数据库子集的512x512图像上训练潜在扩散模型。它使用冻结的CLIPViT-L/14文本编码器根据文本提示和UNet自动编码器调整模型。稳定扩散本质上是一种LDM,它以CLIPViT-L/14文本编码器的非池化文本嵌入为条件。
DreamStudio| 梦想工作室
DreamStudio是稳定扩散的官方团队界面和API。借助DreamStudio,用户无需任何Python知识即可使用StableDiffusion。在DreamStudio界面中输入文本提示会在几秒钟内生成图像。只需使用电子邮件地址注册,DreamStudio即可免费使用50次。
下面显示了通过DreamStudio软件使用稳定扩散模型从文本提示生成的图像示例。
图片
Imagen是GoogleBrain最近开发的文本到图像扩散模型。Imagen包括一个T5-XXL编码器,用于将输入文本映射到一系列嵌入和一个64×64图像扩散模型,然后是两个超分辨率扩散模型,用于生成放大的256×256和1024×1024图像。
所有扩散模型都以文本嵌入序列为条件,并使用无分类器指导。Imagen依靠新的采样技术来允许使用较大的引导权重,而不会在先前的工作中观察到样本质量下降,从而产生比以前可能具有更高保真度和更好的图像文本对齐的图像。Imagen模型的概述如下所示。
资料来源:论文
Imagen生成的一些图像示例如下所示。
左起1)“竹制安卓吉祥物”。源2)“一束光从天花板进入房间。光束照亮了画架。在画架上,有一幅伦勃朗的浣熊画。” 来源3)“一只狗好奇地照镜子,看到一只猫。” 资源
WOMBO梦想
WOMBODream是一款人工智能艺术作品应用程序,您可以在其中输入文字提示并选择艺术风格以生成新的艺术形象。
它建立在两个AI模型——VQGAN和CLIP之上。VQGAN是一种深度学习模型,用于生成看起来与其他图像相似的图像(神经风格迁移)。CLIP是一个经过训练的深度模型,用于确定自然文本描述和图像之间的相似性。
CLIP向VQGAN提供有关如何最好地将图像与文本提示匹配的反馈。VQGAN会相应地调整图像并将其传递回CLIP以检查它与文本的匹配程度。这个迭代过程重复了几次,最终的图像作为结果输出。
WOMBODream应用程序在迭代中给出文本提示的输出示例如下所示。
DeepDream|
DeepDreamGenerator是Google的另一个项目,它像我们迄今为止看到的所有其他生成器一样接收输入图像,并使用不同的风格输出梦幻般的迷幻图像,描绘出我们“梦想”的奇异事物。这是神经风格迁移的又一个例子。
使用DeepDream生成器(已公开用于生成图像)生成的图像示例如下所示。
更广泛的艺术
Artbreeder是一个基于AI的协作网站,允许用户生成和修改他们的肖像和风景图像。
用户可以组合多个图像以轻松创建新图像。其核心有两个基于GAN的模型——StyleGAN和BigGAN模型。
Artbreeder的功能示例如下所示:
音乐与声音AI生成艺术的能力不仅限于绘画——
点唱机
深度生成模型现在可以产生高保真音乐。例如,OpenAI的Jukebox是一个模型,它可以在原始音频域中生成带有歌声的音乐,具有跨越数分钟的长距离连贯性。
Jukebox使用分层VQ-VAE架构将音频压缩到离散空间中,其损失函数旨在在增加压缩级别时保留最大量的音乐信息。Jukebox模型的概述如下所示。
他是
AIVA应用程序允许用户使用AI创作音乐。有几首著名的AI歌曲,例如BoredWithThisDesireToGetRipped、DeliveranceRides等等。其中一些人工智能生成的歌曲甚至有著名歌手的声音(尽管他们从未真正演唱过)。
运动与舞蹈舞蹈编排是一项特别困难的工作,因为“描述”舞蹈并不简单。它高度依赖于风格、情感和技术。
编排是有目的地安排动作序列。基本构建块是3D空间中的位置变化。捕获舞蹈数据是通过使用人体姿势估计技术完成的,该技术将捕获数据的维度减少了几倍,从而允许AI模型以较少的计算负担对其进行训练。
然而,人工智能甚至能够生成编舞片段,其中一个早期的例子是2016年开发的chor-rnn模型。chor-rnn的核心是一个深度循环神经网络,它在原始动作捕捉数据上进行训练,可以生成新的独舞者的舞蹈序列。
最近的文献中提出了许多新技术,包括AI生成的3D编排。
电影为电影编写脚本可以被视为自然语言处理(NLP)任务。AI甚至可以编写整个剧本。例如,2016年,奥斯卡·夏普执导的科幻短片《太阳之泉》的剧本完全由AI编写。
最具革命性的NLP模型之一是生成式预训练Transformer-3(GPT-3)架构。它是一个1750亿参数的自回归语言模型,可以生成具有出色连贯性的类人文本。
GPT-3已被广泛用于编写剧本、诗歌等。在本文中,研究人员创建了一个可以自动生成电影预告片的AI模型。他们的模型可以为任何没有重大剧透的电影制作合适的、引人入胜的预告片(视频)。
故事与图像非常相似,可以使用我们拥有的AI模型生成整个故事,方法是提供描述主题的提示以及您希望AI模型编写的故事的一些高级信息。
例如,TristrumTuttle有一个训练有素的GPT-3模型,用于编写故事以及使用提示的标题:“写一个简短的虚构故事的开头,讲述一个害怕人工智能但随后与机器人交朋友的孩子。”
概括在过去的几十年里,人工智能作为艺术家的潜力已经显着增加——从创造超现实的图像到写电影。生成模型被广泛用于完成这些任务,当提供足够的训练数据时,可以生成新数据。
然而,人们对AI生成的艺术创作(除了伦理问题)存在担忧,例如缺乏将艺术家与其艺术联系起来的个性化。因此,尽管人工智能生成的艺术以高价出售,但人们还是有点担心会失去由真人创作的传统艺术。另一方面,随着脑电图(EEG)技术的发展,通过捕捉艺术家的思想(即捕捉大脑信号),个性甚至可以应用于人工智能生成的艺术。
AI生成艺术的未来仍然很模糊,但我们现在拥有的AI技术确实能够创建可以欺骗我们人类的图像、视频或文本。因此,人工智能艺术的可能性既令人兴奋又令人恐惧。