【AI绘图】一、stable diffusion的发展史
一、stablediffusion的发展史本文目标:学习交流对于熟悉SD的同学,一起学习和交流使用过程中的技巧和心得。帮助新手帮助没有尝试过SD但又对它感兴趣的同学快速入门,并且能够独立生成以上效果图。
1.发展史介绍:2015年的时候,有几位大佬基于非平衡热力学提出了一个纯数学的生成模型(Sohl-Dicksteinetal.,2015)。不过那个时候他们没有用代码实现,所以这篇工作并没有火起来。2019年斯坦福大学(Songetal)与2020年谷歌大脑(Hoetal)根据15年发布的文章,编写了两篇论文,但是影响范围并不是很大。2020年谷歌大脑的几位大佬又把这个模型实现了出来,因为这个模型一些极其优秀的特性,所以它现在火了起来。2022年9月初,AIGC进入大众视野里程碑的一件事,下面这幅使用MidJourney生成的数字油画《空间歌剧院》在美国科罗拉多州博览会(ColoradoStateFair)的艺术比赛中夺得了第一名,之后大赛评委并未对该幅作品进行改判,并认为即使它是AI生成的作品,也依旧配得上这样的成绩,这一新闻被报道后引发了圈内外的广泛讨论。AI是否应该与人同台竞争,确实需要进一步探究,但真正吸引公众眼光的,其实是AI画作的展现出的超高水平:无论是《空间歌剧院》还是《大西洋月刊》的几幅AI插画,都达到了足以以假乱真的地步,无论是构图、线条还是色彩,都很自然流畅,并没有刻板印象中的机械呆板。人们惊奇地发现,AI作画已经发展到了难以想象的地步。AIGC工具对比在目前的三大新兴文本转图像模型中,StableDiffusion诞生得最晚,但由于拥有发展良好的开源社区,它的用户关注度和应用广度都超越Midjourney和DALL-E。
DALL-E2021年1月,OpenAI推出了DALL-E模型,通过120亿参数版本的GPT-3Transformer模型来理解自然语言输入并生成相应的图片。但是它的推出主要用于研究,所以访问权限仅限于小部分测试版用户。这个模型不稳定对于细节理解处理不完善,且会出现严重的逻辑或者事实错误,但是作为开创者,还是得专门提出来的。
在发布DALL-E时还发布了CLIP(ContrastiveLanguage-ImagePre-training,对比图文预训练)。CLIP是一种神经网络,为输入的图像返回最佳的标题。它所做的事情与DALL-E所做的相反——它是将图像转换为文本,而DALL-E是将文本转换为图像。引入CLIP的目的是为了学习物体的视觉和文字表示之间的联系。
2022年4月,OpenAI发布了新版本的DALL-E2,它是DALL-E的升级版本,另外能对所生成的图像进行二次编辑,现在即使是新用户也需要充值才能生成新图。
MidJourneyMidJourney的v1是2022年2月发布的,它火出圈是由于22年7月份的v3版本。
它的特点是综合能力比较全面,艺术性很强,非常像艺术家制作的作品,另外图像生成速度更快,早期主要是很多艺术家会借助Midjourney作为创作灵感。另外,因为Midjourney搭载在Discord频道上,所以有非常良好的社区讨论环境和用户基础。
第二次火其实就是今年3月份发布V5,官方说这个版本在生成图像的人物真实程度、手指细节等方面都有了显著改善,并且在提示词理解的准确性、审美多样性和语言理解方面也都取得了进步。
StableDiffusionStableDiffusion算法上基于2021年12月提出的潜在扩散模型(LDM/LatentDiffusionModel)和2015年提出的扩散模型(DM/DiffusionModel,它是基于Google的Transformer模型),所以名字里有Diffusion,我猜Stable表示现在算法已经稳定下来了。
2022年7月StableDiffusion的问世则震惊了全球,相比前辈们,StableDiffusion已经成功的解决了细节及效率问题,通过算法迭代将AI绘图的精细度提升到了艺术品级别,并将生产效率提升到了秒级,创作所需的设备门槛也被拉到了民用水准。2022年8月对于AI绘图来说,革命性的时刻已经来临,也得益于StableDiffusion的开源性质,全球AI绘图产品迎来了日新月异的发展。这次AI创作大讨论,正是公众们直观地感受到了技术浪潮带来的影响,AI绘图正在走进千家万户,舆论热潮也随之而来。
2023年4月,StabilityAI发布了Beta版本的StableDiffusionXL,并提到在训练结束后参数稳定后会开源,并改善了需要输入非常长的提示词(prompts),对于人体结构的处理有瑕疵,经常出现动作和人体结构异常。
MidJourney和StableDiffusion的对比在目前的三大新兴文本转图像模型中,StableDiffusion诞生得最晚,但由于拥有发展良好的开源社区,它的用户关注度和应用广度都超越Midjourney和DALL-E。
1.价格MidJourney毕竟是为了盈利的,远不如自己部署到自己服务器的开销要低。SD完胜友好程度。MidJourney新手友好,注册即用,相对的SD需要有一定技术背景,甚至可以说设计师或者艺术创作者自己不具备部署能力。SD小胜2.功能SD除了支持MidJourney全部功能外还支持填充修复、自定义模型。SD小胜3.对细节的控制类似于苹果(MidJourney)和安卓(SD)的区别,MidJourney是商业产品,你无法了解它的背后的原理和代码逻辑,所以可控性差、细节优化难(甚至越调越差),而SD由于是开源的且有强大的社区和相关的模型、扩展等,可以实现本地私有化部署,还能够精准局部调优,控制风格,SD完胜的。4.提示方法Midjourney是自然语言输入(直接文字表达需求),而SD是各种带权重的提示词输入。SD的提示词本文是非常考验输入者能力的,Midjourney小胜。5.效果总体上觉得MidJourney的图更精致一点点,但是作为非算法开发者,我感觉SD目前输在模型训练的素材和方法上。MidJourney小胜。6.擅长的画风MidJourney注重表达和对细节的渲染,而Stable-Diffusion偏写实,如果你想艺术创作,MidJourney更好,如果你已经有具体的需求,SD更好。
AI绘画的突破对人类意味着什么2022年的AI领域,基于文本生成图像的AI绘画模型是风头无两的主角。从2月份的DiscoDiffusion开始,4月DALL-E2和MidJourney邀请内测,5月和6月Google发布两大模型Imagen和Parti(不开放内测只有论文,感觉略水),然后7月底,StableDiffusion横空出世。
目前最新AI绘画的”创造力”开始追赶甚至几已比肩人类,这或许进一步打击了人类的尊严,从围棋阿法狗开始,人类在”智慧”这个点的尊严领地已经越来越小,而AI绘画的突破性进展则进一步把人类”想像力”和”创造力”的尊严都打碎了—或许还没完全破碎,但已经充满裂痕摇摇欲坠。
作者一直对人类的科技发展保持某种中性看法:尽管我们寄望于科技让人类的生活变得更美好,但事实上正如核弹的发明,有些科学技术的出现是中性的,也可能是致命的。完全取代人类的超级AI从实践来看似乎是一件越来越可能的事情。人类需要思考的是,在不太远的将来,我们在所有领域面对AI都落荒而逃的时候,如何保持对世界的主导权。
有个朋友说的很对,如果AI最终学会了写代码—似乎没有什么必然的壁垒在阻止这件事的发生–那么电影终结者的故事或许就要发生了。如果这样太悲观,那么人类至少要考虑,如何与一个超越自己所有智慧和创造力的AI世界相处。
当然咯,乐观的角度而言,未来的世界只会更美好:人类通过AR/VR接入统一的或者个人的元宇宙,人类主人只要动动嘴皮子,无所不能的AI助理就能根据要求自动生成内容,甚至直接生成可供人类体验的故事/游戏/虚拟生活。
这是一个更美好的盗梦空间,还是一个更美好的黑客帝国?
图说AI发展史
翻译:洪贤斌
1943年,可以认为是AI肇始,自此人类打开了一个盒子,对于从中放出来的巨兽,尚未定论。但,它来了。
AI的发展并如开始期望那样,自1974年,进入了第一次寒冬。尽管在寒冬,聪明的头脑也没有放弃思考。
寒冬总会过去,AI的春天再次来临。
重要突破刚刚萌芽,又遇到了问题,AI再次被冷落,史称第二次寒冬,而且,这次持续时间较长,直到1993年AI才回归到人们的视野中。
寒冬没有挡住AI的发展,特别是互联网和相关计算技术的发展,AI不仅仅是理论研究,开始步入生产生活中。
从深蓝开始,关于“机器人会不会取代人”的讨论似乎其必要性更紧迫了。
研究NLP的同学们要注意这个东西啦。
AlphaGo更是引起了一场轩然大波。“机器取代人”被某些媒体作为定论来渲染,看门老大爷慌了神,不断念叨自己的饭碗被机器人抢走了。
继续提醒NLP的同学,这是神器。
难道以后找个“人”来打游戏,就那么难了吗?
如果看全图,请点击:
原文链接:https://figshare.com/articles/AI_History_svg/12363890