博舍

SEEChat:360人工智能研究院的中文多模态大模型 人工智能热门领域和研究方向的区别

SEEChat:360人工智能研究院的中文多模态大模型

卧剿,6万字!30个方向130篇!CVPR2023最全AIGC论文!一口气读完

本文来源  机器之心  作者:冷大炜,360人工智能研究院

刚刚过去的22年被媒体誉为“AIGC元年”,这一年中AI绘画和chatGPT相继引爆了全球科技界,成为人工智能领域的两大里程碑事件,特别是chatGPT的推出,又重新点燃了人们对通用人工智能AGI的新一轮期待,chatGPT所表现出来的前所未有的逻辑能力和推理能力,让众多AI领域的专家和研究人员不禁为之赞叹。与此同时,更多的企业和机构也开始尝试将chatGPT应用于自己的业务中,希望通过人工智能的力量来提升工作效率和解决难题。

ChatGPT是基于GPT3.5开发的纯文本单模态的语言模型,对于它的下一代更新,我们之前猜测除了文本能力的继续提升外,从单模态过渡到多模态将是更为关键的一点,今年3月15日GPT4的推出,证实了我们的推测:GPT4做为新一代的GPT模型,增加了对视觉模态输入的支持,这意味着它能够理解图像并进行相应的自然语言生成。

增加了多模态能力的GPT4也带来了应用层面的更多可能,比如在电商领域中,商家可以将产品图像输入GPT4进行描述生成,从而为消费者提供更加自然的商品介绍;在娱乐领域中,GPT4可以被用于游戏设计和虚拟角色创造,为玩家带来更加个性化的游戏体验和互动快乐。视觉能力一向被视为一个通用人工智能AGI智能体所需必备的基础能力,而GPT4则向人们生动展示了融合视觉能力的AGI的雏形。

视觉能力融合的方案和优劣对比

实际上GPT4并不是第一个将视觉与文本模态相融合的工作,CV、NLP以及机器人等领域的科研人员长久以来一直在探寻各种方法将多个不同模型的信息相融合的方法,像VQA、VisualCaptioning、VisualGrounding等都已经是多模态下细分的专业研究领域。

具体到将视觉能力融入语言模型LLM的MLLM(MultimodalLargeLanguageModel),相关的研究路线主要分为两条:一条是原生多模态路线,模型设计从一开始就专门针对多模态数据进行适配设计,代表性的工作有MSRA的KOSMOS-1[1]和GoogleRobotics的PALM-E[2],均在今年3月份公开;另一条是单模态专家模型缝合路线,通过桥接层将预训练的视觉专家模型与预训练的语言模型链接起来,代表性的工作有Deepmind的Flamingo[3],Saleforce的BLIP-2[4],以及近期的LLAVA[5]和miniGPT4[6]等工作。

图1 MLLM代表性工作时间线

以KOSMOS-1和PALM-E为代表的原生多模态路线,模型结构主体均为Transformer堆叠。下图为KOSMOS-1的模型结构和训练方案,其中除了imageencoder部分使用的是预训练的CLIPViT-L/14外,模型主体MLLM部分是24层的Transformer堆叠,使用原生的多模态数据从头训练。

多模态数据由三部分组成:a)纯文本,以Pile和CommonCrawl为主;b)image-textpair数据,以LAION-2B,LAION-400M,COYO-700M,andConceptualCaptions为主;c)图文混合数据(InterleavedImage-TextData),包含71M页图文网页数据。通过将imageembedding以如下格式与textembedding相连缀:ImageEmbeddingWALL-EgivingpottedplanttoEVE.,KOSMOS-1用自回归loss对图文数据进行统一建模。

图2 KOSMOS-1模型结构与训练方案

PALM-E与KOSMOS-1相比,模型结构和对多模态数据的建模方式基本相同,下图3为PALM-E的模型结构和训练方案,其中为机器人的状态估计向量。与KOSMOS-1相比最大的不同在于,PALM-E使用单模态语言模型PALM的权重对模型进行了初始化。

图3 PALM-E模型结构与训练方案

原生多模态路线的优势在于,模型结构原生适配多模态数据,在数据量充足的情况下效果优秀,相关领域的经验也表明这种方式的性能上限更高,但缺点也很明显,不能充分复用各个单模态领域的已有成果,训练需要的计算资源和数据资源都非常大。

与原生多模态路线相对的,以Flamingo、BLIP-2、LLAVA/miniGPT4为代表的单模态专家模型缝合路线,从一开始模型的设计思路就是尽可能复用各个单模态领域的已有成果特别是近期发展迅速的LLM的预训练模型。Flamingo是Deepmind在22年11月发表的工作,在freeze住visionencoder和LM的基础上,通过在LM中插入多个cross-attention层来实现视觉信息与文本信息的对齐和联合学习。

图4 Flamingo模型结构与训练方案

与KOSMOS-1相比,Flamingo这种缝合方案充分利用了CV领域和NLP领域的已有成果,visionencoder和LM均不需要训练,只需要对做为不同模态信息之间做为桥接的cross-attention层(图4中的GATEDXATTN-DENSE)进行训练,因此至少在模型训练成本上就有很明显的优势。

而23年1月salesforce发表的BLIP-2工作以及后续衍生的LLAVA、miniGPT4等工作则将这一思路进一步简化到visionencoder和LM之间只通过单个桥接层进行链接,下图5是BLIP-2的模型结构,其中视觉侧和文本侧分别使用预训练的CLIPViT-G/14模型和FLAN-T5模型,仅中间的起桥接作用的Q-Former参与训练,训练需要的成本和数据量进一步降低,BLIP-2的训练数据量仅129M,16卡A100训练9天。

后来的LLAVA工作更是将这一思路简化到极致,仅通过一个projectionlayer将CLIPViT-L/14和Vicuna语言模型缝合在一起,训练数据仅用了595K图文对以及158K指令微调数据。miniGPT4则是在复用BLIP-2的visionencoder+Q-Former的基础上,通过一层projectlayer缝合了Vicuna语言模型,训练数据仅用了5M的图文对数据+3.5K的指令微调数据。

图5 BLIP-2模型结构

与原生多模态路线相比,单模态专家模型缝合路线最明显的优势是可以充分复用各个单模态领域的已有成果,成本低,见效快,有研究人员猜测GPT4可能也是基于缝合路线实现的视觉理解能力。但基于缝合路线的缺陷也显而易见,尤其像BLIP-2、LLAVA、miniGPT4这样简单的浅层融合方案,最终训练得到的MLLM模型能力通常只能做单轮或多轮对话,不具备像Flamingo这种深层融合方案以及KOSMOS-1、PALM-E等原生多模态方案所展现出的多模态in-contextlearning能力。

SEEChat多模态对话模型

SEEChat项目(https://github.com/360CVGroup/SEEChat)的重点是将视觉能力与已有的LLM模型相融合,打造侧重视觉能力的多模态语言模型MLLM。在多模态能力的实现路线上,我们选择了能够充分复用不同领域已有成果的单模态专家模型缝合路线(Single-modalExpertsEfficientintegration),这也是SEEChat项目的命名来源。

SEEChatv1.0的模型结构如下图6所示,通过projectionlayer桥接层,将visionencoder:CLIP-ViT-L/14与开源的中文LM:chatGLM6B缝合到一起。

图6 SEEChat模型结构

SEEChatv1.0的训练分为两个阶段:第一阶段是图文对齐训练,使用我们之前开源的高质量中文图文对数据集Zero[7],总共2300万样本进行训练;第二阶段是人机对齐训练,使用miniGPT4+LLAVA开源的指令微调数据经英-中翻译后,对第一阶段训练好的模型进行指令微调。

下图7~9是关于SEEChatv1.0在图文对话、代码生成和目标分类能力的简单展示。可以看到,SEEChat一方面继承了chatGLM语言模型在对话方面的能力(当然也继承了其缺点),另一方面表现出了令人印象深刻的图文对齐和视觉理解能力。

图7 SEEChatv1.0图文对话展示

图8 SEEChatv1.0图文对话展示

图9 SEEChatv1.0图文对话展示

SEEChat并不是第一个开源的中文多模态对话模型,同期5月份,已经有中科院自动化所的X-LLM[8]和清华KEG组的VisualGLM[9]相继开源。与之相比,SEEChatv1.0不论在路线选择还是模型结构上与前述两个工作大体相同,只在模型细节和训练数据与方法上存在不同。我们认为,对于当前的浅层融合方案,一个很关键的点在于训练用的数据质量而不是数量。我们在imagecaptioning任务上将SEEChatv1.0与相关的多个工作进行了对比:

从中文Zero数据集中随机选取1000张中文互联网图像,已排除训练集数据

使用ChineseCLIP[10]计算图文相关性得分(为避免训练数据重叠带来的偏置,我们没有使用自己训练的R2D2中文跨模态模型,而是选取了第三方训练的跨模态模型进行图文相关性得分的评价)

上图为七种公开方法(我们将数据原生的互联网文本做为其中一种方法看待)的图文相关性得分胜出情况

可以看到,使用高质量图文数据集Zero训练的SEEChatv1.0,胜出率甚至大比例超过原生文本。

图10 不同模型在ImageCaptioning任务上的对比

未来的工作

SEEChat项目包含两个版本:内部闭源版本使用企业内部数据训练,主打业务生产力;外部开源版本使用公开数据训练,主打能力展示和社区影响。目前SEEChatv1.0的内部版本已在集团内部业务落地,并在5月31日以“360智脑-CV多模态大模型”的品牌对外发布。

如前所述,SEEChat项目的重点是将视觉能力与已有的LLM模型相融合,打造侧重视觉能力的多模态语言模型MLLM,v1.0验证了基础的图文对齐和视觉理解能力,接下来我们将逐步为MLLM添加目标检测能力、跨模态能力以及开放词表的目标检测与识别能力,模态融合方案也将从浅层融合向深层融合过渡,敬请期待。

作者简介

冷大炜:360人工智能研究院视觉引擎部负责人,目前带领研究院视觉团队在多模态大模型,AIGC,跨模态图文学习,开放世界目标检测,开放词表视频分析,AIoT等方向进行前沿探索和工业落地工作。

参考文献

[1]Huang,Shaohan,etal."Languageisnotallyouneed:Aligningperceptionwithlanguagemodels."arXivpreprintarXiv:2302.14045(2023).

[2]Driess,Danny,etal."Palm-e:Anembodiedmultimodallanguagemodel."arXivpreprintarXiv:2303.03378(2023).

[3]Alayrac,Jean-Baptiste,etal."Flamingo:avisuallanguagemodelforfew-shotlearning."AdvancesinNeuralInformationProcessingSystems35(2022):23716-23736.

[4]Li,Junnan,etal."Blip-2:Bootstrappinglanguage-imagepre-trainingwithfrozenimageencodersandlargelanguagemodels."arXivpreprintarXiv:2301.12597(2023).

[5]Liu,Haotian,etal."Visualinstructiontuning."arXivpreprintarXiv:2304.08485(2023).

[6]Zhu,Deyao,etal."Minigpt-4:Enhancingvision-languageunderstandingwithadvancedlargelanguagemodels."arXivpreprintarXiv:2304.10592(2023).

[7]Zero,https://zero.so.com/

[8]Chen,Feilong,etal."X-LLM:BootstrappingAdvancedLargeLanguageModelsbyTreatingMulti-ModalitiesasForeignLanguages."arXivpreprintarXiv:2305.04160(2023).

[9]VisualGLM,https://github.com/THUDM/VisualGLM-6B

[10]ChineseCLIP,https://github.com/OFA-Sys/Chinese-CLIP

关注公众号【机器学习与AI生成创作】,更多精彩等你来读

深入浅出stablediffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

 戳我,查看GAN的系列专辑~!

一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型DiffusionModels

ECCV2022|生成对抗网络GAN部分论文汇总

CVPR2022|25+方向、最新50篇GAN论文

 ICCV2021|35个主题GAN论文汇总

超110篇!CVPR2021最全GAN论文梳理

超100篇!CVPR2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载| 《可解释的机器学习》中文版

附下载|《TensorFlow2.0深度学习算法实战》

附下载|《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述:十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!,加入 AI生成创作与计算机视觉 知识星球!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇