博舍

人工智能,如何妙笔“生”画 关于人工智能绘画的论文范文

人工智能,如何妙笔“生”画

核心阅读

输入一段话,“绘”出一幅画——人工智能的绘画本领,吸引众多职业画师和零基础用户尝鲜。人工智能绘画的本质是计算,接受“语言描述”指令后根据自身的理解还原出图像。未来,人工智能技术应用于艺术创作等领域,还要注意防范潜在风险,让技术进步更好地造福社会。

不用画笔、颜料,输入一段描述性文字,计算机就能自动解析,生成相应的画作。2022世界人工智能大会上,人工智能绘画的展示令观众惊叹。

一些过去专属于人类创作的领域,比如绘画、书法、写作、作曲,如今人工智能也已开始涉足。人工智能是如何绘画的?当前沿技术与艺术相遇,将碰撞出怎样的火花?在内容、版权等方面又是否存在问题?

从文本到图像,人工智能绘画本质是计算

人工智能绘画是一个从文本到图像的生成过程,输入一段话,生成一幅画,本质是计算。简要地说,计算机通过大量学习,能识别特定图片元素和文本之间的关联。同理,人工智能程序在收到“语言描述”指令后,可以根据自身的算法还原出图像。

设定计算机程序作画的想法由来已久。早在20世纪70年代,就有艺术家开发了操作机械臂的电脑程序,让机械臂按照指令在画纸上作画。近些年,人工智能技术日新月异,科研人员尝试设计自动作图的计算机程序。但过去很长一段时间,人工智能“画”出的作品普遍不够好,往往只是一些模糊的图像元素的组合,还称不上是完整的画。

今年以来,人工智能画技迅速“进化”。谈及技术突破原因,百度文心一格总架构师肖欣延认为,这是预训练大模型的兴起、大数据的训练和扩散模型的出现3方面共同作用的结果。

具体来说,预训练大模型增强了人工智能的通用性,成为人工智能技术及应用的新基座;大数据的训练中,通过在众多高性能GPU(图形处理器)算力资源中进行并行学习,计算机能够在短时间内完成大量的数据学习。近年来,几乎所有人工智能的技术发展都受益于这两方面的进展。而对人工智能绘画来说,扩散模型的出现至关重要。

扩散模型的原理是,通过人为逐步添加噪声,让图像逐渐变“模糊”,再不断学习去噪过程,如此人工智能就能从完全是噪声的图片中逐渐还原出清晰的图片,即“画”出图像。

“这一过程与人类学习相似。通常,人们学画从临摹开始,机器也是如此。它最初生成的图像可能很模糊,但计算机会不断修正,从而输出越来越清楚、层次越来越丰富的图像。”肖欣延说。

扩散模型让人工智能绘画技术实现跨越,不仅作画质量快速提升,生成时间也缩短到几秒钟。

众多用户尝鲜,大量应用加速“画技”进化

汤林杰是某互联网公司的运营人员。工作中,他需要借助一些图片来丰富文案,而网络上找到合适的配图并不容易。今年10月,了解人工智能绘画程序后,他尝试自己“画”图。现在,人工智能绘画工具已经是他工作的重要辅助。

随着算法模型对公众开放以及训练数据成本的下降,人工智能绘画门槛越来越低,一些简易化操作平台在国内外兴起。如今,不仅一些职业插画师尝试用人工智能绘画程序辅助作画、激发灵感,许多没有绘画基础的用户也开始尝鲜,并“晒”在社交平台上。

大量需求的涌现也加速了技术的更新迭代。“用人工智能绘画的人越多,算法就越能理解输入的描述文本,画作质量就越高。”肖欣延表示,当前人工智能绘画水平与今年初相比,已经有很大进步。

不过,目前的人工智能绘画技术并不完美。首先,可控性仍然不高,即计算机不能很好理解人类指令的含义,即便是输入“画两个苹果,左边红色,右边绿色”这样的简单描述,生成的图像也可能有很大偏差;其次,细节呈现能力还不够。比如,对空间、透视和光影的刻画就很不如意。不少人工智能渲染出的画作,初看上去惊艳,认真观察问题却不少。

但肖欣延认为,人工智能绘画在技法上的缺陷未来有望得到弥补。比如,基于跨模态大模型和强大的深度学习框架,百度开发的技术一定程度上已经缓解这些问题。此外,未来人工智能不仅能作画,还能根据文本描述生成视频,并直接配上解说文字,“可以把视频生成看作是维度更高的绘画,从技术层面看,这是可以实现的。”

防范潜在风险,守住法律和伦理底线

人工智能进入绘画领域,计算机会取代人类画师吗?

在肖欣延看来,好的绘画与构图、设计语言、视觉情绪息息相关,即使人人都可以用人工智能技术作画,但通常只有高水平的画师才能制作出优秀的人工智能绘画作品,“人工智能只是作画的辅助工具”。此外,虽然有的人工智能绘画语言娴熟,也包含细腻的情感,但并不意味着机器有意识、情感,它不过是学过类似的作品,又恰好呈现出来了。“优秀的艺术作品往往是人的思想的投射,目前机器并没有真正具备思考能力。”肖欣延说。

不少业内人士认为,不妨以开放的心态拥抱人工智能绘画,接受新事物。可以预想,将来绘画中一些繁琐、重复性的工作可能由计算机完成,创作者能腾出更多时间去构思想法与创意,调整构图、色彩、光影氛围等。

“人工智能可能会激发绘画创造的活力。”肖欣延表示,20世纪前后,照相技术让传统肖像画失去市场,促使一些画家向非写实方向创新。与人工智能技术融合,或许能激发画家创作出别开生面的作品。

不过,由于人工智能绘画发展刚刚起步,技术发展也引发关于版权、内容把控等问题的争议。比如,有人认为,未经授权人工智能画作模仿原画的内容、构图和风格等,侵犯了原作者的版权,有违法嫌疑。也有人认为,“机器学习”过程是一种类人化的创作行为,同样体现了创造者的思想和劳动,应当获得版权保护。此外,还有人担忧,人工智能绘画技术若被滥用,可能滋生暴力等令人不适的图像。面对新技术发展,有必要前瞻潜在的风险,只有守住法律和伦理底线,技术进步才能更好地造福社会。

不只是绘画,写作、作曲、生成短片,人工智能日益强大的深度学习能力,让它与不同艺术门类发生着奇妙的碰撞。展望未来,业界专家认为,人工智能与艺术融合,一方面会降低一些艺术门类的创造门槛,让更多人参与到当代的审美创造中来;另一方面新技术会带来新的审美风格,人们或许能从中扩展对自身和世界的认识。

人工智能内容生成元年—AI绘画原理解析

AIGC体验生成  团队模型、论文、博文、直播合集,点击此处浏览一、背景

        2022年AIGC(AI生成内容)焕发出了勃勃生机,大有元年之势,技术与应用迭代都扎堆呈现。在各种新闻媒体处可以看到诸多关于学术前沿研究,以及相应落地的商用案例。可谓出现了现象级的学术-商业共振。以往学术研究内容离商用一般较远,因为学术研究相应实验数据通常为闭集即固定数据场景,而商业应用则为开集即非固定数据场景(能见到各式各样、甚至乱七八糟的数据)。所以将学术研究内容转化为商业应用的时候,就需要以工匠精神去做产品化设计与迭代,主要目的就是不断提升其可用性以达到商业化标准(避免出现不符预期、甚至乱七八糟的结果)。

        但AIGC领域似乎大大缩短了这一转化进程,尤其以近期短时间内爆火的AI绘画、AI作画类应用为代表。这无疑是人工智能发展至今的巨大胜利时刻,这能建立极强、极快的螺旋式发展迭代循环,商业应用上的不足点能迅速反馈至学术研究侧,学术研究侧的优化改进也能迅速体现到商业应用侧,拉满学术研究能获得的成就感。接下来的篇幅将介绍现有AI绘画、AI作画背后的相应基本原理、应用、以及论文参考文献。更多技术与应用的有趣想法欢迎评论区留言。

二、原理技术脉络归纳:

        在AI内容生成制作爆火的2022元年,在其基础框架技术部分,技术演进的脉络可以看作是不断寻找更可靠的特征域建模方式,亦可看作是不断寻找更合适的借鸡生蛋方式的过程。原始图像域的特征维度是很高的,直接来建模会有维度灾难的问题。需要不断找到可行的中间域来做对齐:

1.)CLIP可以看作是图像域与文本域特征对齐的大一统技术框架,文本域的原始特征空间跟原始图像域的特征空间比是相对更小的。所以在同等维度特征的表达下,文本相比图像是能更加容易被刻画好的,所以当align文本域特征到图像域特征时,图像域特征表达将无疑得到了更佳的富有语义的监督信号。这样获得更好的效果也就很自然了。

2.)diffusion可以看作是将原始图像域建模转变为噪声域建模的方法。噪声域有两个极大的好处:首先,它的特征空间比原始图像域要小的多,非常容易建模。其次,即使噪声域建模效果没能接近完美,它所呈现出来的差异也是噪声域的差异,而这个噪声差异在图像内容域上对人眼来说往往注意不到。所以从基本原理上来说,diffusion生成的图像细节无疑是会远远优于gan的。

基础技术部分:

        基础技术框架上大致可以分成如下几个标志性的阶段:

a)GAN阶段

        原理摘记,生成与对抗网络图像特征域对齐,示意图如论文[1]中图所示:

b)Transformer阶段

        网络由self-Attenion和FeedForwardNeuralNetwork组成,强力的文本、图像(ViT系列)编码网络框架。示意图如论文[3]中图所示:

c)CLIP阶段

        图像文本域特征对齐。基于文本、视觉transformerencode统一框架,训练阶段4亿文本图像配对数据,训练至少100卡月V100。示意图如论文[4]中图所示:

d)Diffusion阶段

        原始图像特征域对齐转变为图像噪声域对齐。基于参数化马尔科夫链框架实现。示意图如论文[5]中图所示:

演化技术部分:a)StyleGan

        基于adain思想,额外学习高斯分布到风格空间w的映射,然后风格空间的变量作用于合成网络中。示意图如论文[2]中图所示:

b)DALL-E1

    网络可理解为VQVAE+Transformer。示意图如论文[6]中图所示:

c) DALL-E2

        网络可理解为CLIP+Diffusion。示意图如论文[7]中图所示:

d)StableDiffusion

        网络可理解为VAE+CLIP+Diffusion+Unet,引入LDM等加速手段,显著降低计算复杂度。示意图如论文[8]中图所示:

三、应用

        目前可以看到,诸如文生图、图生图、图像编辑、图像修复、图像拓展等应用功能都已实现,国内的AI绘画特效类应用也结合国风、动漫等风格有了非常广泛的应用,这里面既有大厂也有创业公司等玩家的加入。于此同时,对创意行业设计者来说,AI绘画也正演变为最佳助手,大幅提高创意行业的生产效率。相应应用介绍如下:

1.)DiscoDiffusion:CLIP+Diffusion。https://github.com/alembics/disco-diffusion。

2.)StableDiffusion:https://github.com/Stability-AI/stablediffusion。

3.)StableDiffusion2:显著提升图像质量,采用LAION-5B58.5亿个图像文本对,增加NSFW做了内容过滤。https://huggingface.co/stabilityai/stable-diffusion-2。

4.)Imagic:ganDALL-E2,基于扩散模型的真实图像编辑方法,用文字就能实现真实照片的PS,比如让一个人竖起大拇指、让两只鹦鹉亲吻。示意图如论文[9]中图所示:

5.)Imagen:更强力的语言模型能获得更逼真的画作效果。相较于视觉部分模型来讲,语言模型size越大带来的画作逼真性越大。示意图如论文[10]中图所示:

6.)DreamBooth:对输入图像中的主体能进行相应输入文本语义下的内容生成。示意图如论文[11]中图所示:

7.)Midjourney:https://midjourney.gitbook.io/docs。在美国科罗拉多州举办的艺术博览会,《太空歌剧院》的画作获得数字艺术类别冠军。

四、文献

[1]Gan:https://arxiv.org/abs/1406.2661

[2]StyleGan:https://arxiv.org/abs/1812.04948

[3]Transformer:https://arxiv.org/abs/1706.03762

[4]CLIP:https://arxiv.org/abs/2103.00020

[5]Diffusion:https://arxiv.org/abs/2006.11239

[6]DALL-E1:https://arxiv.org/abs/2102.12092

[7]DALL-E2:https://arxiv.org/abs/2204.06125

[8]StableDiffusion:https://arxiv.org/abs/2112.10752

[9]Imagic:https://arxiv.org/abs/2210.09276

[10]Imagen:https://arxiv.org/abs/2205.11487

[11]DreamBooth:https://arxiv.org/abs/2208.12242

五、应用

        接下来给大家介绍下我们研发的各个域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验):

ModelScope魔搭社区

ModelScope魔搭社区

ModelScope魔搭社区

ModelScope魔搭社区

ModelScope魔搭社区

ModelScope魔搭社区

ModelScope魔搭社区

ModelScope魔搭社区

ModelScope魔搭社区

ModelScope魔搭社区

ModelScope魔搭社区

ModelScope魔搭社区

人工智能绘画,到底有多惊艳

人工智能(ArtificialIntelligence,AI)的发展可追溯到1956年达特茅斯大会,会议探讨用机器模拟智能的系列问题,并首次提出“人工智能”概念,因而1956年被公认为是人工智能的元年。

人工智能发展史

人工智能历经沉浮之后,如今迎来迅猛发展的时期,越来越多地进入并改变着人类社会和日常生活,不仅在科技、医疗、工业、数学等领域应用广泛,在音乐、诗歌、绘画等文化艺术领域也成为不可忽视的新技术趋势。

狩猎时代的洞穴艺术

纵观人类文明的发展,从狩猎时代到农业文明、工业文明、信息化时代以及人工智能时代,几乎每一次的科技发展进步都深刻影响并改变人们的生活和工作方式,也推动着新的人文价值观念与艺术创造的变革。

信息化时代的交互艺术

人们曾经认为人工智能难以在艺术领域有所突破,如今看来,很多人工智能在艺术领域已经取得非凡的成果,比如著名的人工智能小冰,受到文本或其它创作源激发时能够独立完成100%原创的绘画作品。还有全球首款人工智能机器人艺术家艾达,她的动手能力远超一般画家。

世界上第一位超写实AI机器人艺术家艾达

2018年,法国艺术创作团队Obvious使用GAN算法(GAN,GenerativeAdversarialNetworks)生成的《埃德蒙·德·贝拉米肖像》以约300万元人民币的高价被拍走,这幅肖像画成为进入大型拍场的首件人工智能艺术作品。

埃德蒙·德·贝拉米像,Obvious

团队先后输入超过15000多幅14世纪到20世纪之间的世界名画给AI系统,让AI系统不断地进行绘画训练,最终AI“创作”出了这幅肖像画。肖像的签名揭示了创作者的虚拟身份,也就是生成对抗网络GAN算法模型。

肖像右下角的签名就是Gan算法

GAN算法通过“生成”与“判别”的互相博弈学习产生输出,好像模拟艺术伪造者与艺术侦探的互动。“伪造者”模仿生成新的图像,“侦探”评判图像是生成的还是真实的,直到“侦探”再也无法分辨时才算结束。这件作品正是经历了这样的过程。

由AI生成的爱德蒙·贝拉米家族,图源:Obvious

这组系列作品共包括11幅肖像,这些人物共同组成虚构的贝拉米家族,同时也向2014年提出“生成对抗网络”(GAN)模型的人工智能研究学者伊恩·古德费洛(IanGoodfellow)致敬。尽管有不少争议的声音,认为这种灵感匮乏,分辨率低的代码编辑图像愚蠢至极,但新颖的创作方式已经预示AI绘画的势不可挡。

在2020年举行的全球人工智能和机器人峰会AI艺术专场上,清华大学未来实验室高峰及其团队展示了“道子智能绘画系统”,该系统利用计算机将自然图像以风格迁移的方式转变成艺术图像,或者通过机械手臂根据训练习得的艺术图像进行水墨创作,达到了与人类艺术家的作品难以分辨的程度。

道子AI生成的水墨画图像

左图为学习徐悲鸿作品后生成的水墨马

右图为学习黄宾虹作品后生成的山水画

诞生于2014年的微软小冰是世界上最具创新性的人工智能技术框架产品之一,自2017年开始积极推进人工智能内容生成,比如诗歌创作以及绘画等。2019年,人工智能“小冰”的绘画模型化名“夏语冰”参加央美研究生毕业展。

图源:第九代小冰发布会现场

毕业后的夏语冰将更多精力转向学习中国山水画和书法,2021年夏语冰完成了人工智能视觉创作模型的全新升级,能够通过笔墨运用呈现山水之美。导师邱志杰教授曾评价:“人工智能第一次能够像人类艺术家一样,运用丰富多变的笔触赋予作品不同的风格特征,从而将人工智能绘画和设计品质提升至新的高度。”

山水精神,投影,2021,邱志杰、夏语冰共同创作

全球首个人工智能水墨画家“A.I.Gemini”也是新晋之秀。研发者黄宏达通过重力、构造碰撞、侵蚀对地质景观的影响,转换成三维景观为Gemini“造境”,Gemini通过深度学习,寻找合适的角度构思,之后由系统“漫游”至最佳位置。

根据“心境”,Gemini使用机械臂以及传统的中国墨水和宣纸开始创作,下笔力度不同,用墨深浅不一,形成独特的风格。Genesis的创作过程已经不是简单输入输出的复制,有点写生以及意在笔先的味道。

Gemini创作过程

研发者认为,先给AI一些路径或规则进行学习,反之它能带给我们灵感和启发,由此我们再改变调整一些参数设定,这其中的互动为新的创作带来了不可预期的可能。

FarSideoftheMoon,2019,人工智能,水墨纸本

(图源:VictorWongand3812Gallery)

Gemini创作过程

近几年有不少AI作画神器出现,比如谷歌DeepDream、英伟达GauGAN、OpenAI的DALL·E,以及最近大火的开源DiscoDiffusion等,在美术行业、收藏界以及NFT领域的影响愈发广泛。

DiscoDiffusion界面

最近刷屏的DiscoDiffusion,是可以将文字转化为图像的AI,目前是通过谷歌在线编辑器Colab运行,所有渲染过程都可以在线上进行。某种意义上实现了“动动嘴就能画画。”

“黑云下的人们正进行棒球比赛,白色肌肉和粉色雕像,玛格丽特。”艺术从业者尝试输入描述关键性词以及画家名字,让AI学习雷尼·玛格丽特的《TheSecretPlayer》并生成一系列不同结果。

雷尼·马格利特《TheSecretPlayer》原作

DiscoDiffusion生成的不同结果图源:wang2mu

全球艺术爱好者们纷纷沉浸在AI创作中,驰骋着自己的想象,输出一幅幅颇有艺术创造力的作品。

海景画系列,random_noir

泡泡中的男孩,shane54music

长安元宵节,shelly_wan

江南的春日记忆,mindplayer

龙宫一瞥,jarvis_010

星际学校,jizhou.sun

糖果乐园,diffusion_dreams

有作者运用古诗词和水墨风关键词生成中国画,有的甚至形成一段极富意蕴的古风视频。

日暮苍山远,greatdk

水墨风AI绘画,Simon_阿文

水乡之旅(视频)片段,MiyoC

DiscoDiffusion的惊艳表现带给人们对人工智能艺术创作的思考和审视,或许在不久的将来,人与智能技术的高度融合让艺术在技术变革中获得璀璨新生。

(图片来源网络,根据果壳、设计癖、量子位、雷锋网等报道整理)返回搜狐,查看更多

人工智能导论课程论文:人工智能及其发展趋势

摘要:人工智能,又简称AI,它是当今最火的一门科学,是研究使计算机来完能表现出人类智能的任务的学科。主要包括计算机实现智能的原理,制造类似于人脑的智能计算机,以及使计算机更巧妙些实现高层次的应用。人工智能科学,它起源于近代,在电气时代随着计算机科学的发展,以及生物学,脑科学等相关科学的发展,极大地推动了人工智能的发展。人工智能还涉及信息论、控制论、自动化、仿生学、生物学,数理逻辑、语言学、心理学等多门学科。导致其非常复杂,所以其研究领域也分成许多方面,从最开始的博弈论,专家系统,模式识别,神经网络,机器学习到现在大热的深度学习。其应用领域,也非常之多,比如机器翻译,语音交互,ORC,图像识别,智能驾驶等等。自从谷歌的阿尔法狗在围棋打败了人类棋手,人工智能也进入了一个新的发展阶段,如今各国,各大公司都在大力发展人工智能技术,争取在新时代把握先机,把握未来。人工智能即将在无人驾驶,机器翻译,语言交互等应用领域取得巨大成功。即使如此,人工智能现在还是处于弱人工智能阶段,人工智能还面临着许多问题和挑战。向强人工智能发展的道路上,仍然充满巨大的困难。

关键词:人工智能

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇