创新基础大模型 推动人工智能技术专业化应用
转自:千龙网
5月18日,AI赋能数字中国产业论坛暨2023云从科技人机协同发布会举行。会上,云从科技集团股份有限公司(以下简称云从科技)展示了最新的人机协同操作系统,并宣布云从科技“从容大模型”的正式亮相。ChatGPT等AI大模型的发布,引发了全行业对于AI技术的关注,AI行业迎来了新一轮发展浪潮。此次发布会上,云从科技分析了AI大模型带来的内容和交互方式变革而引发的人工智能市场爆发,特别是与行业创新应用相互叠加产生的持续增长潜力。云从科技董事长周曦认为,金融、法律、医学等不同行业,都有自身的行业大模型。不过,如果没有强大的基础大模型,直接去打造行业大模型,很难保持长期的生命力。这是因为,如果想让行业大模型足够实用,便需要重新训练基础大模型。此外,要想在产业实践中实现规模化应用,就必须严格控制行业大模型的成本,并提升其效率,这就需要掌握基础大模型。据了解,云从科技经过多年积累,训练出足够强大的基础大模型——从容大模型。通过实时学习并同步反馈结果,从容大模型可以解决AI应用的痛点问题。从容大模型具备上下文学习能力,实现更好的交互性,特别在金融、游戏等应用场景,多轮对话技术在人机协同操作系统中将得到更充分的应用。云从科技现场演示了从容大模型的基础功能,包括趣味问答、中英文翻译、编程与阅读理解等。会上,广州市政协副主席、市科技局局长王桂林表示,广州人工智能、大数据、云计算等优势产业不断集聚,打造了以人工智能与数字经济试验区为龙头的“一核牵引、多点支撑”空间发展格局,人工智能和数字经济产业规模和质量暂居国家第一方阵。未来,广州将加速汇集人工智能与数字经济产业,持续培育壮大产业集群,推动创新链、产业链、人才链、资金链深度融合,持续提升产业发展核心能力海量资讯、精准解读,尽在新浪财经APP生成人工智能研究为创作者提供引导式图像结构控制
新的研究正在提升人工智能的创造力,通过文本引导的图像编辑工具。这项研究提出了一种使用即插即用扩散特征(PnP-DF)的框架,可以指导真实和精确的图像生成。视觉内容创作者可以通过一个提示图像和几个描述性单词,将图像转换为视觉效果。
可靠而轻松地编辑和生成内容的能力有可能扩大艺术家、设计师和创作者的创作可能性。它还可以加强依赖动画、视觉设计和图像编辑的行业。
“最近的文本到图像生成模型标志着数字内容创作进入了一个新时代。然而,将它们应用于现实世界应用程序的主要挑战是缺乏用户可控性,这在很大程度上被限制为仅通过输入文本来指导生成。我们的工作是为用户提供对图像布局控制的首批方法之一,”NarekTumanyan说,魏茨曼科学研究所的主要作者和博士候选人。
最近在生成人工智能方面的突破为开发强大的文本到图像模型开辟了新的途径。然而,复杂性、模糊性和对自定义内容的需求限制了当前的渲染技术。
该研究介绍了一种使用PnPDFs的新方法,该方法改进了图像编辑和生成过程,使创作者能够更好地控制其最终产品。
研究人员从一个简单的问题开始:扩散模型是如何表示和捕捉图像的形状或轮廓的?该研究探索了图像在生成过程中的内部表征,并考察了这些表征如何编码形状和语义信息。
新方法控制生成的布局,而无需训练新的扩散模型或对其进行调整,而是通过理解空间信息是如何在预训练的文本到图像模型中编码的。在生成过程中,模型从引入的引导图像中提取扩散特征,并将其注入生成过程的每个步骤,从而对新图像的结构进行细粒度控制。
通过结合这些空间特征,扩散模型对新图像进行细化,以匹配制导结构。它迭代地执行这一操作,更新图像特征,直到它降落在最终图像上,该图像保留了指南图像布局,同时也匹配了文本提示。
作者写道:“这产生了一种简单有效的方法,将从制导图像中提取的特征直接注入到翻译图像的生成过程中,不需要训练或微调。”。
这种方法为更先进的受控生成和操作方法铺平了道路。
视频1。“文本驱动的图像到图像翻译的即插即用扩散特征”研究综述2023ConferenceonComputerVisionandPatternRecognition(CVPR)研究人员利用cuDNN加速PyTorch框架,在NVIDIAA100GPU平台上开发和测试了PNP模型。据该团队称,GPU的大容量使他们能够专注于方法开发。研究人员获得A100的支持,是因为他们参与了NVIDIAAppliedResearchAcceleratorProgram。
该框架部署在A100上,在大约50秒内从引导图像和文本转换出新图像。
这个过程不仅有效而且可靠,可以准确地生成令人惊叹的图像。它还可以超越图像,翻译草图、绘图和动画,并可以修改照明、颜色和背景。
图1。该方法的样本结果保留了引导折纸图像的结构,同时匹配了目标提示的描述(来源:Tumanyan,Narek等人/CVPR2023年)他们的方法也优于现有的文本到图像模型,在保留制导布局和偏离其外观之间实现了卓越的平衡。
图2:将该模型与P2P、DiffuseIT、具有三种不同噪声水平的SDedit以及VQ+CLIP模型进行比较的示例结果(资料来源:Tumanyan、Narek等人/CVPR2023年)然而,该模型确实存在局限性。当编辑具有任意颜色的图像部分时,它不能很好地执行,因为模型不能从输入图像中提取语义信息。
研究人员目前正致力于将这种方法扩展到文本引导的视频编辑中。这项工作也被证明对其他利用扩散模型中图像内部表示分析能力的研究有价值。
例如,一项研究利用团队的研究见解来改进计算机视觉任务,如语义点对应。另一个重点是扩大文本到图像生成控制,包括对象的形状、位置和外观。
来自魏茨曼科学研究所的研究小组将在CVPR2023上发表这项作品,该作品也在GitHub上开源。
想要了解更多关于团队的信息,请访问项目页面。阅读研究报告Plug-and-PlayDiffusionFeaturesforText-DrivenImage-to-ImageTranslation。观看NVIDIA研究在CVPR2023上实现的人工智能突破。
利用人工智能技术解决地铁站周边停车难问题
智慧停车系统是一种通过互联网技术和先进的人工智能算法实现的智能停车管理系统,可以在各种不同场景下应用。下面将为大家详细介绍智慧停车系统在几个典型场景下的应用。
一、商业区停车场
商业区停车场是一个常见的停车场类型,随着商业区人流量的增加,停车难的问题也日益严重。智慧停车系统可以通过智能化的分辨车牌识别技术,实现车辆的自动识别和计费。停车场也可以通过APP或者微信公众号进行预约停车,方便消费者停车,避免出现滞留拥堵的情况。
二、地铁站及周边停车场
越来越多的人选择乘坐地铁出行,但是地铁站周边的停车场资源也日益紧张。 智慧停车系统可以通过提供实时停车位信息,有效减少行车路径的搜索,并精准导引车辆到达空闲的停车位,尽最大可能保障车辆的停车需求,提升停车场服务质量。
三、医院停车场
医院停车场因其独特的服务需求和管理属性,严重威胁到医院的治疗服务和患者的就诊体验。 智慧停车系统可以通过智能的预约管理和车位监控技术,提前安排患者的用户信息和车辆信息,预先分配合适的车位,让停车变得更加省心。此外,通过系统的车辆监测和监管技术,也可以更加方便、快捷地联动医院各部门处理突发事件。
四、企事业单位停车场
企业单位的停车场也是常见的场景之一,停车位资源的紧张、临停车辆的管理、内部车辆和来访人员车辆的优先安排等问题常常困扰企业单位的管理者。 智慧停车系统可以通过系统化的停车位管理,更好的将停车资源优化分配,同时还可以方便地甄别车牌相关信息,并确保来访车辆和内部车辆在进出管理上实现更加精准的掌控。
总之,智慧停车系统能够帮助各种类型停车场实现科技创新、智能化管理,以此来更好地解决当今社会停车难的问题。