博舍

人工智能趋势——2023 年综述 人工智能研究综述

人工智能趋势——2023 年综述

摘要

随着DALL·E2于2022年4月的宣布,关于2022年初第三个AI冬天——或AI撞墙——的预言过时得很快而且效果不佳,随后出现了更多主要由扩散模型驱动的文本到图像应用程序,这是一个非常多产的领域用于计算机视觉研究及其他领域。AI的2022年定义为强劲的上升趋势。

此外,大型语言模型被证明是一个更加肥沃的领域,有几篇论文显着扩展了它们的能力:检索增强、思维链提示、数学推理、推理自举。语言模型研究远未结束。它仍然在发展!

今年年的重磅炸弹无疑是OpenAI的ChatGPT,它再次重新定义了对LLM的期望,并巩固了OpenAI作为LLM即服务的全球领导者的地位。正如我们将看到的,到2023年,这可能会对整个技术领域产生连锁反应,因为与OpenAI建立了牢固合作伙伴关系的微软可能会利用它来改进他们的主流产品,包括Bing和Office。

现在让我们来看看AI的几个关键领域:它们目前所处的位置以及我们预计它们在2023年的发展方向。

社区

长期以来,Twitter一直是AI研究人员公开分享和讨论其工作的最大在线空间。但埃隆·马斯克臭名昭著的收购该公司已将其置于摇摇欲坠的境地。日益增长的不稳定因素、不可预测的政策变化以及马斯克的分裂政治立场导致人们强烈要求转移到Mastodon等其他地方。目前,大部分行动仍在bluebird网站上进行,出于政治原因一夜之间全面撤离的可能性仍然不大,但我们不能完全排除明年公司出现某种形式崩溃的可能性。

深度学习社区的另一个战场是框架。PyTorch的采用率已经超过TensorFlow几年了,它是Autograd和神经网络最受喜爱和使用的框架。2023年,PyTorchv2.0将发布,其主要功能是编译器和加速。甚至谷歌也没有押注TensorFlow的卷土重来,而JAX/FLAX生态系统——已经是谷歌大脑和许多其他研究人员的最爱——仍然不够成熟,无法成为主流。

最后,行业和学术界的鸿沟继续扩大,因为(1)大型科技公司拥有更多可用的计算资源,以及(2)当前的许多轰动一时的研究都依赖于数十名世界级工程师的密切合作,而这些工程师是无法获得的普通博士生。这意味着学术研究正在转向更好地检查、理解和扩展现有模型,以及设计新的基准和理论进步。

语言模型

如果一年前LLM已经是AI领域的主角,那么现在的情况更接近于独白。萨顿的惨痛教训像美酒一样陈年。有了ChatGPT,LLM成为了主流——甚至我的非AI非技术朋友都在问这个问题——我们预计2023年将是这项技术真正普及的一年。微软——已经在考虑将其在OpenAI中的股份扩大到49%——而谷歌不想错过,所以这将是一场巨头的冲突。

规模。在过去的几年里,模型在参数方面几乎没有增长——这与许多公开的AI讨论相反!现有最好的可用密集LLM仍处于200B参数范围内,因为它们未得到优化,并且在该范围内仍有许多有待发现和改进的地方。然而,我们预计今年情况会有所改变,(1)谷歌公开使用他们的FLAN模型系列,以及(2)如果克服所有优化挑战,OpenAI和竞争者将通过备受期待的GPT-4进入万亿级参数计数.由于成本原因,这些可能不会为大部分LLM即服务提供支持,但将成为下一个成为头条新闻的旗舰技术。优化。静态文本数据训练的时代已经结束。当前的LLM不仅仅是大型语言模型,它们的优化包括策划的、交互式的和连续的数据/文本以及代码等形式语言。我们期望在LLM优化方面取得进展,利用更复杂的RL环境(例如LLM作为代理),LLM在正式环境循环中训练以学习更好的符号操作(例如Minervav2),LLM生成更多和越来越好的数据来训练他们自己,以及在适度硬件上廉价运行的模型上提炼更多性能的方法,导致每个FLOP在LLM即服务的经济学中都很重要。语言模型的进步将继续渗透到其他人工智能领域,如计算机视觉、信息检索和强化学习(正如2022年已经发生的那样)。代码+大型语言模型。GitHubCopilot已经推出一年多了,它正在慢慢改变人们编写代码的方式。谷歌在2022年初分享了其3%的代码已经由LLM编写,我们预计代码完成LLM会变得更好,慢慢改变人们编写代码的方式。

强化学习和机器人

可以说,RL在去年从基本面来看并没有取得实质性进展。相反,进步是由越来越复杂的代理的应用构成的,这些代理结合了计算机视觉、文本、语言模型、数据管理……例如CICERO、视频预训练(VPT)、MineDojo或GATO。很大程度上受成功扩大模仿学习或离线RL的推动,只需少量使用古老的在线RL代理-环境-奖励循环。我们期望开发更多的多模态复杂代理,这些代理可以在不完整的信息下采取行动,利用基于大型神经网络和大型预训练数据的模块化组件。

到2023年,我们预计LLM和RL之间的共生关系将进一步发展:在RL环境中训练LLM,并将LLM用作RL代理的一部分(例如,作为政策的规划者,强先验)。

最后,Zero-fewshot和极高的效率将是机器人在现实世界中互动的关键,我们期待ML模块化(只需插入预训练模块的能力)、few-shot能力和因果表示的趋势学习在2023年在这方面提供帮助。但是,如果在传统RL在计算机上解决极端样本效率之前在该领域取得重大突破,我们会感到惊讶。

计算机视觉

扩散模型和文本到图像是2022CV的明星。我们对通过生成图像可以实现什么的看法与我们一年前的想法大不相同。然而,图像理解远未解决。让我们更接近的关键是什么?

因果表征学习(通常与以对象为中心的表示学习相关)是一个不断增长的兴趣领域,它研究元素之间因果关系的学习,超出了它们的统计相关性。阻碍进步的一个关键因素是缺乏强大的标准化基准测试,我们预计2023年将带来CV基准文化的转变,将重点转移到域外泛化、稳健性和效率上,而不是域内图像分类、跟踪、分割……更多的多模式模型将文本、音频和动作与视觉相结合,就像我们在VideoPretrainingTransformerMineDojo中看到的那样。扩散模型接管了生成文本到图像的人工智能,并被用于其他应用,如分子对接和药物设计。生成视频和3D场景是并将成为这些应用程序的下一个自然步骤,但我们预计连贯的长视频生成需要更长的时间。对高频数据(标记/图像)建模比收集大规模低频数据(例如新颖的叙事结构)更难。没有足够的静态数据来通过蛮力解决这个问题,因此需要更好的大型模型优化技术。##信息检索

最后,是我们心中的话题。在过去几年中,神经IR的最大问题是将学术基准的成功——BM25经常被打败——转化为现实世界的设置和广泛采用。发生这种情况的关键:

不需要人工相关注释。这已经是IR在2022年取得最大进展的方面之一,提出了InPars(使用LM生成注释)、LaPraDor(无监督对比学习)等建议。方便。当前的模型可能在基准测试中表现良好,但它们不仅仅有效。我们期望在神经IR模型的整个开发生命周期中提高便利性,从而提高采用率。对话式人工智能。检索增强语言模型和ChatGPT等强大的模型最近重新引起了人们对该领域的兴趣,因为许多人现在看到了真正的可行性。虽然标准化评估仍然具有挑战性,但我们预计人们对该领域的兴趣会增加。除了研究之外,2023年可能是消费者网络搜索领域发生颠覆的一年,并且只是人们对搜索引擎的期望发生了范式转变。微软与OpenAI的合作以及最近ChatGPT的巨大成功让许多人猜测Bing有可能发生180°转变,采用由有效语言模型提供支持的真正复杂的网络规模问答。谷歌现在看到其主要业务受到挑战,今年可能是谷歌需要加强其游戏的混乱之年。

总结

最后,强调一些与研究相关性较低但仍然是人工智能在未来内如何发展的关键的问题:

在硬件方面,Nvidia在AI芯片上的垄断地位仍未动摇,只有奇迹才能在短期内改变这一局面。关于HuggingFace被谷歌收购并与他们的GCP和TPU紧密集成以进行托管的传言可能会增加TPU硬件的使用,但这听起来仍然不太可能。

欧洲人工智能法案——迄今为止最雄心勃勃、最全面的监管工作——继续取得进展,目前的估计表明它最早可能在2023年底生效。我们希望其他大型经济体能够注意到并效仿它发生在GDPR中,以确保在AI使用方面保护个人权利。

当前的大型技术放缓将如何影响人工智能研究——尤其是在短期行业融资方面。虽然我们希望我们在过去12个月中看到的强劲进展将转化为该领域的整体乐观情绪,但不能排除放缓的可能性。

人工智能相关文献综述国内外研究现状

人工智能相关文献综述国内外研究现状

 

    

人工智能

(Artificial Intelligence, AI)

是一门计算机科学和

工程学科

,

主要研究如何构建具有智能的计算机系统

,

使计算机能够

模拟人类的智能行为和智能决策。近年来

,

随着计算机科学和人工智

能技术的快速发展

,

人工智能研究领域取得了许多突破

,

产生了大量

的研究成果。

 

    

在国内

,

人工智能领域的研究主要集中在计算机视觉、自然语言

处理、机器学习和深度学习等方面。近年来

,

随着深度学习算法的不

断成熟和应用场景的不断扩大

,

人工智能在国内的研究和应用受到了

高度关注。同时

,

国内人工智能领域也在涌现出了一批优秀的学者和

研究团队

,

例如清华大学、北京大学、上海交通大学等高校和中国科

学院、中国科学技术大学等科研机构。

 

    

在国外

,

人工智能的研究和应用也取得了广泛进展。国外人工智

能领域的研究主要集中在机器学习、

自然语言处理、

计算机视觉和深

度学习等方面。例如

,

谷歌、亚马逊、微软等搜索引擎和科技公司

,

已经成为人工智能领域的领军企业

,

在多个领域取得了重要的的研究

成果。同时

,

国外也有很多研究机构和大学在人工智能领域投入了大

量的研究资金和人力

,

例如斯坦福大学、麻省理工学院、加州大学伯

克利分校等。

 

 

生成人工智能研究为创作者提供引导式图像结构控制

 

新的研究正在提升人工智能的创造力,通过文本引导的图像编辑工具。这项研究提出了一种使用即插即用扩散特征(PnP-DF)的框架,可以指导真实和精确的图像生成。视觉内容创作者可以通过一个提示图像和几个描述性单词,将图像转换为视觉效果。

可靠而轻松地编辑和生成内容的能力有可能扩大艺术家、设计师和创作者的创作可能性。它还可以加强依赖动画、视觉设计和图像编辑的行业。

“最近的文本到图像生成模型标志着数字内容创作进入了一个新时代。然而,将它们应用于现实世界应用程序的主要挑战是缺乏用户可控性,这在很大程度上被限制为仅通过输入文本来指导生成。我们的工作是为用户提供对图像布局控制的首批方法之一,”NarekTumanyan说,魏茨曼科学研究所的主要作者和博士候选人。

最近在生成人工智能方面的突破为开发强大的文本到图像模型开辟了新的途径。然而,复杂性、模糊性和对自定义内容的需求限制了当前的渲染技术。

该研究介绍了一种使用PnPDFs的新方法,该方法改进了图像编辑和生成过程,使创作者能够更好地控制其最终产品。

研究人员从一个简单的问题开始:扩散模型是如何表示和捕捉图像的形状或轮廓的?该研究探索了图像在生成过程中的内部表征,并考察了这些表征如何编码形状和语义信息。

新方法控制生成的布局,而无需训练新的扩散模型或对其进行调整,而是通过理解空间信息是如何在预训练的文本到图像模型中编码的。在生成过程中,模型从引入的引导图像中提取扩散特征,并将其注入生成过程的每个步骤,从而对新图像的结构进行细粒度控制。

通过结合这些空间特征,扩散模型对新图像进行细化,以匹配制导结构。它迭代地执行这一操作,更新图像特征,直到它降落在最终图像上,该图像保留了指南图像布局,同时也匹配了文本提示。

作者写道:“这产生了一种简单有效的方法,将从制导图像中提取的特征直接注入到翻译图像的生成过程中,不需要训练或微调。”。

这种方法为更先进的受控生成和操作方法铺平了道路。

视频1。“文本驱动的图像到图像翻译的即插即用扩散特征”研究综述2023ConferenceonComputerVisionandPatternRecognition(CVPR)

研究人员利用cuDNN加速PyTorch框架,在NVIDIAA100GPU平台上开发和测试了PNP模型。据该团队称,GPU的大容量使他们能够专注于方法开发。研究人员获得A100的支持,是因为他们参与了NVIDIAAppliedResearchAcceleratorProgram。

该框架部署在A100上,在大约50秒内从引导图像和文本转换出新图像。

这个过程不仅有效而且可靠,可以准确地生成令人惊叹的图像。它还可以超越图像,翻译草图、绘图和动画,并可以修改照明、颜色和背景。

图1。该方法的样本结果保留了引导折纸图像的结构,同时匹配了目标提示的描述(来源:Tumanyan,Narek等人/CVPR2023年)

他们的方法也优于现有的文本到图像模型,在保留制导布局和偏离其外观之间实现了卓越的平衡。

图2:将该模型与P2P、DiffuseIT、具有三种不同噪声水平的SDedit以及VQ+CLIP模型进行比较的示例结果(资料来源:Tumanyan、Narek等人/CVPR2023年)

然而,该模型确实存在局限性。当编辑具有任意颜色的图像部分时,它不能很好地执行,因为模型不能从输入图像中提取语义信息。

研究人员目前正致力于将这种方法扩展到文本引导的视频编辑中。这项工作也被证明对其他利用扩散模型中图像内部表示分析能力的研究有价值。

例如,一项研究利用团队的研究见解来改进计算机视觉任务,如语义点对应。另一个重点是扩大文本到图像生成控制,包括对象的形状、位置和外观。

来自魏茨曼科学研究所的研究小组将在CVPR2023上发表这项作品,该作品也在GitHub上开源。

想要了解更多关于团队的信息,请访问项目页面。阅读研究报告Plug-and-PlayDiffusionFeaturesforText-DrivenImage-to-ImageTranslation。观看NVIDIA研究在CVPR2023上实现的人工智能突破。

 

力的智能控制研究综述

力的智能控制研究综述

 

付晓

;

张林

;

逵振雨

;

胡士建

;

刘平顺

;

张虎

 

【摘

 

要】

本文对力的智能控制进行了分析和总结

,

阐述了力的控制策略

,

详细描述了

力的智能控制概念

,

产生背景及目前的研究理论及应用现状

.

在现有力的智能控制取

得的成果上进行了展望

,

并结合众多相关学科及涉及力控制领域应用的进展提出了

一些见解

,

即刚柔耦合柔顺作业过程中力的集成

/

多元智能控制

.

 

【期刊名称】

《产业与科技论坛》

 

【年

(

),

期】

2017(016)018

 

【总页数】

2

(P43-44)

 

【关键词】

力的智能控制

;

神经网络

;

柔顺作业

;

集成控制

 

【作

 

者】

付晓

;

张林

;

逵振雨

;

胡士建

;

刘平顺

;

张虎

 

【作者单位】

卧龙电气南阳防爆集团股份有限公司

;

卧龙电气南阳防爆集团股份有

限公司

;

卧龙电气南阳防爆集团股份有限公司

;

卧龙电气南阳防爆集团股份有限公司

;

卧龙电气南阳防爆集团股份有限公司

;

卧龙电气南阳防爆集团股份有限公司

 

【正文语种】

 

 

机械装置在未知环境中执行与操作物接触的作业过程中如抓取地面上摆放的一个鸡

蛋,采摘树上成熟的西红柿时均需要高度的精确性,一般的工业或工程作业过程中,

机械装置在执行与外界有接触的操作时,必然也有力的相互作用。力的大小及灵活

性的控制在这个过程直接决定了作业的成败及效率。如何对机械装置力的灵活控制,

就产生了力控制这一研究范畴。

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇