基于人工智能技术快速构建三维模型
译者| 朱先忠审校| 孙淑娟图1:封面生成三维模型可能很耗时,或者需要大量参考图像。解决这个问题的一种方法是借助神经辐射场(neuralradiancefield,简称“NeRF”),这是一种生成图像的人工智能方法。NERF的主要思想是:先获取一小组您拍摄的对象或场景的2D图像,然后使用这些2D图像来有效地构建3D表示。这是通过学习在已有图像之间的转换来实现的。现在,这种跳跃(也称作“插值”)技术能够帮助您创建物体新视角下的图像!听起来不错,对吗?借助于一小组图像,你就可以制作一个3D模型!这比标准摄影测量效果要好,因为标准摄影测量需要一个巨大的图像库来生成一些图片(你需要每个角度的镜头)。然而,NVIDIA公司一开始确实承诺说NeRFs速度很快;但是,直到最近情况还不是这样。以前,NeRFs往往会花费很长时间来学习如何将一组图像集转换为3D模型。但如今,情况不再如此。最近,NVIDIA公司开发出了一种即时NeRF软件,该软件能够利用GPU硬件运行必要的复杂计算。这种方法将创建模型所需的时间从几天减少到几秒钟!NVIDIA对instant-ngp软件的可用性和速度提出了许多令人兴奋的主张。而且,他们提供的结果和示例也给人留下深刻的印象:图2:NeRF图像展示——NVIDIA拥有一个酷炫的机器人实验室我觉得很难不被这个演示打动——它看起来太棒了!于是,我想看看把它转移到我自己的图像上并生成我自己的NeRF模型有多么容易。所以,我决定自己安装并使用一下这款软件。在本文中,我将介绍我的试验体验,并详细介绍我制作的模型!主要任务划分那我们该怎么办?大致阶段性任务划分如下:首先,我们需要引用一些连续镜头。让我们去录制一些我们想要3D化的视频!然后,我们开始场景拍摄,并将拍摄的视频转换成多幅静止图像。我们将上面获取的连续图像数据传递到instant-ngp。然后,训练人工智能来理解我们生成的图像之间的空间。这实际上与制作三维模型相同。最后,我们想创建一个展示我们的创作成果的视频!在NVIDIA开发的软件中,我们将绘制一条路径,让摄像机带我们参观我们制作的模型,然后渲染视频。我不会深入讨论这一切是如何运作的,但我会提供我发现有用的很多资源的链接。所以,接下来,我将专注于我制作的视频,以及我在旅途中偶然发现的一些小知识。开始我的试验NVIDIA公司的即时NeRF软件并不容易安装。虽然软件的说明很清楚,但我觉得当涉及到个人需要的特定软件版本时,说明中要求的部分所提供的回旋余地并不大。对我来说,使用CUDA11.7或VS2022似乎是不可能的,但我认为正是切换回CUDA11.6版本和VS2019才最终促进了安装成功。其中,我遇到很多错误,比如“CUDA_ARCHITECTURESisemptyfortarget”,等等。这是因为CUDA与VisualStudio配合并不友好所导致。因此,我真诚地推荐有兴趣的读者参考视频以及Github上的仓库资源,以便进一步帮助你顺利地做好一切设置工作!除此之外,这一过程算是进展顺利。官方还提供了Python脚本,用于帮助指导将拍摄的视频转换为图像,以及随后将其转换为模型和视频的步骤。试验1:乐高小汽车起初,我试图在办公室里把一辆小乐高汽车NeRF化。我觉得我的摄影技巧远远不够,因为我根本无法创作出任何有意义的图像。只是一个奇怪的3D污点而已。算了,还是让我们看一看NVIDIA提供给我们的一个例子吧。请注意图中摄像机的位置:图3:NVIDIA提供的挖掘机默认NeRF模型的“摄像头”位置一个能够很好地进行训练的准备设置之一就是在场景中放置如上图所述的“摄像机”。这些摄像机是软件认为你在拍摄视频时所面对的角度。它应该是一个漂亮的圆圈。当然,我的第一辆乐高车根本不是这个样子的,而是一个被压扁的半圆。试验2:稍大点的乐高小汽车为了从第一次试验中学习,我找到了一张可以完全走动的桌子,并找到了一辆更大的乐高车。我试着确保我抓拍的时间也比以前长。最后,我从各个角度拍摄了1分钟流畅的视频。我训练模型的时间总共不到30秒。在720p下渲染4小时后,下图是我制作的视频:图4:我的第二个NeRF模型——一部乐高技术车!试验3:植物结果证明上面的试验2更好一些了,至少在技术上可行。然而,还是存在一团奇怪的雾,当然这还不算是超级麻烦。在我的下一次试验中,我也试着从更远的背面拍摄(我假设雾是由人工智能对那里的东西感到“困惑”引起的)。我试图更多地控制aabc_scale参数(该参数用于衡量场景有多大),然后对其进行几分钟的训练。渲染最后,得到如下所示的视频结果:图5:我用客厅桌子上的一棵植物做成的一个NeRF模型好多了!令人印象深刻的是,它是如何将钩针植物盆子、木头上的凹槽以及树叶的复杂性表现得如此精确的。看看摄像机在树叶上做的俯冲动作吧!试验4:现在,我们的试验效果越来越好了!然而,我想要一个室外的视频。我在公寓外拍摄了不到2分钟的视频,并开始处理。这对于渲染/训练来说尤其笨重。我在这里的猜测是,我的aabc_scale值相当高(8),因此渲染“光线”必须走得很远(即,我想要渲染的东西数量更多)。于是,我不得不切换到480p,并将渲染FPS从30降低到10。事实表明,设置参数的选择确实会影响渲染时间。经过8个小时的渲染,我完成了以下操作:图6:一个我在公寓外面使用的NeRF模型不过,我认为第三次试验仍然是我最喜欢的。我想我可以把第四次试验做得更好一点。但是,当渲染时间变得很长时,很难遍历各个版本并试验不同的渲染和训练设置。现在甚至设置渲染的摄像机角度都很困难了,这导致我的程序变得极其缓慢。不过,这真正是一个相当惊人的输出,因为仅仅使用了一两分钟的视频数据。最后,我终于有了一个详细的逼真的三维模型!利弊分析我认为最令人印象深刻的是,在1-2分钟的拍摄时间内,完全没有受过摄影测量训练的人(我)可以创建一个可行的3D模型。该过程的确需要一些技术诀窍,但一旦你把所有设备都安装好了,也就很容易使用了。使用Python脚本将视频转换为图像效果很好。一旦这些都做了,输入到人工智能就会顺利进行。然而,尽管很难因这一方面而指责英伟达,但我觉得我还是应该提出来:这件事需要一个相当强大的GPU。我的笔记本电脑里有一个T500,这项任务简直把它推到了绝对极限。训练时间确实比宣传的5秒钟时间长得多,尝试在1080p情况下渲染时会导致程序崩溃(我是选择在135*74指标左右动态渲染的)。现在,这仍然算是一个巨大的改进,因为以前的NeRF模型实验花费了好几天时间。我不认为每个人都会有一个3090p设备用于这样的项目,所以值得简要说明一下。低性能配置的电脑使程序难以使用,尤其是当我试图让摄像机“飞起来”以便更有利于设置渲染视频时。尽管如此,这一过程的成果还是让人印象深刻。还有,我面临的另一个问题是无法寻找渲染文件render.py(正如您可能猜测的那样,它对于渲染视频至关重要)。非常奇怪的是,它不在官方提供的开源代码仓库中,尽管在大多数广告文章和其他文件中都有大量提及。因此,我必须从链接处https://github.com/bycloudai/instant-ngp-Windows挖出这个宝贝。最后,我也希望能够把上面的3D模型转换成.obj文件。也许现在,这已经成为可能的事了。图7:一只狐狸的gif动画——这不是我做的,是英伟达做的。效果不错,对不?总结和下一步的想法上面的实验过程让我一下联想到OpenAI公司开发的DALL-E,这也是一种能够产生图像的人工智能技术。现在,这种技术已经变得非常流行,部分原因在于它非常容易访问。此外,DALL-E展示给人们一个非常酷的例子,说明人工智能模型可以做什么,以及它们的局限性。它如今甚至已经成为了一种流行的文化现象(或者至少在我的推特上就体现了很多特色内容)——人们制作自己各自奇怪的DALL-E图片并相互分享。我可以想象这种技术也会发生类似这样的事情:一个可以让任何人上传视频并创建一个可以与朋友分享的3D模型的网站,其病毒传播的潜力是巨大的。最终有人肯定会做到这一点!就我个人而言,我期待着这方面更多的实验成果。我希望能够生成超逼真的模型,然后将它们转储到AR/VR中。基于这些技术,你甚至可以主持网络会议——那不是很有趣吗?因为你仅需要借助手机上的摄像头即可实现这一目标,而如今大部分用户手机中已经拥有了这种硬件配置。总地来说,我印象深刻。能够在手机上录制1分钟的视频,并将其转换为一个你可以逐步通过的模型,这真是太棒了。虽然渲染需要一段时间,而且安装有点困难,但效果很好。经过几次试验,我已经得到了非常酷的输出!我期待着更多的实验!参考资料NVIDIAGitNVIDIAblogSupplementalGit译者介绍朱先忠,51CTO社区编辑,51CTO专家博客、讲师,潍坊一所高校计算机教师,自由编程界老兵一枚。早期专注各种微软技术(编著成ASP.NETAJX、Cocos2d-X相关三本技术图书),近十多年投身于开源世界(熟悉流行全栈Web开发技术),了解基于OneNet/AliOS+Arduino/ESP32/树莓派等物联网开发技术与Scala+Hadoop+Spark+Flink等大数据开发技术。原文标题:UsingAItoGenerate3DModels,Fast!,作者:AndrewBlance人工智能AI生成的艺术:从文本到图像、视频、3D建模
除了国画、风景画,二次元也不在话下。
简单来说,就是AI学会了“命题作画”。
其实,AI绘画早在2015年就已经出现,但随着技术的不断增强,人们惊奇的发现,AI作画已经发展到了难以想象的地步。在国内外网络上,AI作画迅速成为焦点话题之一。
即使大众对AI绘画的褒贬不一,但我们不得不承认,AI生成艺术的爆发大势不可逆。作为计算机视觉算法领导者,皮卡智能AI也不甘落后。目前也研究出「文字生成图片」技术,正在不断完善中,仅供商业使用,可调用定制化API接口服务。
用户可前往官网进行案例操作,如需生成更好效果,可尝试输入英文关键词,每个关键词可随机生成4-5次不同的图片。
珊瑚小镇
对于大多数普通人来说,进行AI绘画创作无疑是新奇的体验,只需要输入指定的关键词,就能生成自己想要的图片,甚至能颠覆想象生成更大胆的创作。看似是一个傻瓜就能上手的工具,却经历了多年的技术突破才能实现今天的效果。
传统AI绘画的技术原理是生成网络(GAN)或VAE等,目前,GAN作为上一代AI绘画工具与平台最主流的图像生成模型,在模型训练方面已经有了很大的突破,但在实际应用的过程中仍然拥有严重的结构性问题。
采用DiffusionModel的Dall-E-2生成的图片
而AI生成艺术爆发背后主要的技术原因是DiffusionModel(扩散模型)在这2年的发展,突破了AI生成艺术多年以来的技术瓶颈,结合已经发展得很成熟了的文本语言模型GTP-3,带来了可用性极高的文本生成图片工具。
把原图用马尔科夫链将噪点不断地添加到其中,最终成为一个随机噪声图像,然后让训练神经网络把此过程逆转过来,从随机噪声图像逐渐还原成原图,这样神经网络就有了可以说是从无到有生成图片的能力。而文本生成图片就是把描述文本处理后当做噪声不断添加到原图中,这样就可以让神经网络从文本生成图片。
在现阶段,对于艺术、影视、广告、建筑、时尚、新媒体等创意行业从业者来说,AI绘画的崛起其实是有很多帮助的,它可以作为一个强大的助手,辅助日常工作,提高产出效率,降低时间和经济成本,以下列举了一些AI绘画的应用方向。
ToC的生产工具这种最直接的应用场景主要展现在修图APP、to设计师端的站酷、即时设计等生产工具,AI绘画可以为这些产品增加场景丰富度,提高用户粘性。
为艺术解放生产力这种应用场景大概率会出现在插画师、动画师、电影创作者等实现能力补充,解放生产力。这其中应用最多的企业可能会是广告公司、影视创作公司、建筑事务所等对艺术效果图有大量需求的企业客户,单是这几类企业就有不低的市场天花板,另外,品牌商家的广告和创意部门也是有力的受众之一。
AI生成的这就是街舞5·李承铉队长大秀背景
实现“创作自由”在当下全民自媒体、低门槛内容制作的时代,AI绘画也会在此领域发光发热,就拿B站的二创来说,越来越多的up主利用AI来进行创作输出,分享更多更有趣的AI技术。基于这一点考虑,国内主要内容生产分发的平台、电商平台、互联网大厂等都有可能会先后在自有产品生态中孵化AI绘画功能,帮助用户快速生成符合平台调性的艺术内容,同时服务自己的用户和企业用户。
科技正在慢慢改变世界,AI「以文生图」仅仅是AI生成艺术的冰山一角,未来还会崭露出更多AI生成艺术。
例如AI生成视频,既然AI可以生成图片,那生成视频自然将会成为下一个待开垦的地带;视频有了,AI生成3D模型也指日可待。
AI时代的内容领域,创作者们总要不同程度地与AI对垒。这难免带来冲击和焦虑,但我们也应该知晓,它们终究只是工具,不能淘汰人类的想象与创造。返回搜狐,查看更多