博舍

2023年深度学习哪些方向比较有研究潜力 人工智能什么方向比较火

2023年深度学习哪些方向比较有研究潜力

来源:知乎问答

作者:陀飞轮、Zhifeng、谢凌曦

转自:极市平台

深度学习成为近些年来较为热门的领域,算法工程师这一岗位也变得越发的抢手,尽管已经踏入了这一领域但对整体的大环境其实是还不能够准确的把握。从研究方向去看,2021年的深度学习还有哪些方向还是一片蓝海或者比较有研究的潜力呢?本文汇总了知乎三位答主的精华回答,希望能给大家带来帮助~ 

问题详情:本人只对目标检测方向比较了解,感觉现在比较成熟和饱和了,再突破比较难。想尝试换个方向进行研究,但是我对整个深度学习大的趋势还不是很了解。求大佬解答一下,谢谢。

原问题链接:

https://www.zhihu.com/question/460500204

# 回答一

作者:Zhifeng

来源链接:

https://www.zhihu.com/question/460500204/answer/1902459141

回答几个我最近在研究的方向~我主要在做生成模型,不过乱七八糟的也有涉猎

可解释性:feature-based研究的很多了,instance-based个人感觉在上升期,从研究的角度来说缺乏benchmark/axiom/sanitycheck.主流方法是influencefunction,我觉得这里面selfinfluence的概念非常有趣,应该很值得研究。当然,更意思的方向是跳出influencefunction本身,比如像relatIF加一些regularization,也是水文章的一贯套路(relatIF是好文章)。

Influencefunctionforgenerativemodels也是很值得做的。InfluencefunctionforGAN已经有人做了,虽然文章直接优化FID是有点问题的,但是框架搭好了,换一个evaluation换个setting就可以直接发paper。

我最近写了InfluencefunctionforVAE,有不少比较有意思的observation(paper: https://arxiv.org/pdf/2105.14203.pdf;coderepo: VAE-TracIn-pytorch)。

----------分割线----------

无监督生成学习:最近的denoisingdiffusionprobabilisticmodel(DDPM)绝对是热坑,效果好,但是速度慢没有meaningfullatentspace限制了很多应用,有待发掘。我去年实习写了一篇DiffWave是这个方法在语音上的应用,效果很好,最近应该能看到这个模型的application井喷,比如3Dpointcloud生成。

DDPM的加速最近已经有不少paper了,目前来看有几类,有的用conditionedonnoiselevel去重新训练,有的用jumpingstep缩短MarkovChain,有的在DDPM++里面研究更快的solver.我最近写了FastDPM,是一种结合noiselevel和jumpingstep的快速生成的框架(无需retrain,originalDDPMcheckpoint拿来直接用),统一并推广了目前的好几种方法,给出了不同任务(图像,语音)的recipe(paper: https//arxiv.org/pdf/2106.00132.pdf;coderepo: FastDPM_pytorch)。

生成模型里的Normalizingflow模型,用可逆网络转化数据分布,很fancy能提供likelihood和比较好的解释性但是效果偏偏做不上去,一方面需要在理论上有补充,因为可逆或者Lipschitz网络的capacity确实有限。另一方面,实际应用中,training不稳定可能是效果上不去的原因,其中initialization和traininglandscape都是有待研究的问题。潜在的突破口:augmenteddimension或者类似surVAE那种generalizedmapping.除此之外,normalizingflowondiscretedomain也是很重要的问题,潜在突破口是用OT里面的sinkhornnetwork。

我对residualflow这个模型有执念,很喜欢这个框架,虽然它不火。今年早些时候我写了residualflow的universalapproximationinMMD的证明,很难做,需要比较特殊的假设(paper:https://arxiv.org/pdf/2103.05793.pdf)。之后可能继续钻研它的capacity和learnability。

再补充一个:

生成模型的overfitting是一个长久的问题,但是本身很难定义,很大一个原因是modecollapse和copytrainingdata耦合在一起。我们组去年发表了data-copyingtest用于检测相关性质,不过这个idea还停留在比较初级的阶段,我觉得这一块需要更多highlevel的框架。

----------分割线----------

Metalearning+generativemodel方向个人十分看好,metalearning框架可以直接套,loss改成生成模型的loss就可以了。Again,GAN已经被做了,不过GAN的paper那么多,随便找上一个加上metalearning还是很容易的。类似可以做multitask+GAN。

# 回答二

作者:谢凌曦

来源链接:

https://www.zhihu.com/question/460500204/answer/1930151239

所有内容均只代表作者本人观点,均有可能被推翻,二次转载务必连同声明一起转载。

我的主要研究方向是计算机视觉,所以本文也会比较偏重CV方向。

1.不适合的研究方向

首先我要反对两个方向:对比学习为代表的自监督学习算法(包括BYOL等)和Transformer。它们的上限几乎是肉眼可见的,在没有非平凡的改进之前,很难有本质上的突破。在大量研究者投入精力的情况下,只要没有持续的产出,就必然会导致其加速衰落。前些年盛极一时的网络架构搜索(NAS)就是一个非常典型的例子。

我们首先分析NAS、对比学习、Transformer的局限性:

1.原本以NAS为代表的AutoML技术受到了广泛的期待,我还主张“自动机器学习之于深度学习,就好比深度学习之于传统方法”,不过后来发现它的缺陷是明显的。在搜索空间指数级扩大之后,算法就必须在精度和速度之间做出选择。后来盛行的权重共享类搜索方法,相当于追求搜索空间中的平摊精度,而平摊精度与最佳个体的精度往往并不吻合。

2.对比学习被广泛引入图像领域作为自监督任务以后,前世代的自监督算法(如预测旋转、拼图、上色等)纷纷被吊打,甚至开始在下游任务中超越有监督训练的模型。然而,当前的对比学习类方法(包括BYOL)对于数据扩增(dataaugmentation)的依赖过重,因而不可避免地陷入了invariance和consistency之间的矛盾:强力的augmentation能够促进学习效果,但是如果augmentation过强,不同view之间的可预测性又无法保证。

3.至于Transformer,虽然目前还处在比较兴盛的状态,然而它的上限也是明显的。除了更快的信息交换,似乎这种模型并没有体现出显著的优势。问题是:CV任务真的需要频繁而快速的视觉信息交换吗?遗憾的是,学界依然沉浸在“先将所有任务用Transformer刷一遍”的廉价快乐中,鲜有人愿意思考一些更深入的问题。

因此,我特别希望初学者不要看到一个热门方向就一拥而上,而要冷静地思考这个问题:如果全世界都知道这个方向火热,那么你的研究要想脱颖而出,就必然有某些过人之处——比如你有特别多的卡,或者你有丰富的PR资源。否则,很可能还是捧红了别人的文章,浪费了自己的时间。

2.应该关注的方向(但未必能够保证产出)

我认为CV领域还是存在很多本质问题没有解决的。但是这些问题往往非常困难,投入长期研究的风险也比较大,因而大部分研究者会回避这些问题。然而要从根源上推进CV的发展,这些问题就不得不去面对、解决:

1.是否存在神经网络之外的推理方式?当前,神经网络成为训练以后的唯一产物,而几乎所有算法均假设将输入送给神经网络以后,一次性地得到输出结果。然而,是否能够设计直接向前传递以外的其他推理方式?例如,当一个物体处于罕见的视角或者被严重遮挡时,能否通过多次迭代式的处理,逐渐恢复其缺失的特征,最终完成识别任务?这就涉及到将强化学习引入训练,或者通过类似于imagewarping的方式找到一条困难样例和简单样例之间的路径。后者可以导向一个非常本质的问题:如何以尽可能低的维度刻画语义空间?GAN以及相关的方法或许能够提供一些思路,但是目前还没有通用的、能够轻易跨越不同domain的方法。

2.是否存在更精细的标注方式,能够推进视觉的理解?我最近提出了一个假想:当前所有的视觉识别算法都远远没有达到完整,而这很可能是当前不够精细的标注所导致的。那么,是否能够在可行的范围内,定义一种超越instancesegmentation的标注方式,进一步推进视觉识别?这就涉及到一系列根本问题:什么是一个物体?如何定义一个物体?物体和部件之间有什么联系?这些问题不得到解决,物体检测和分割将步图像分类的后尘,迅速陷入过拟合的困境。

3.如何解决大模型和小样本之间的矛盾?当前,大模型成为AI领域颇有前景的规模化解决方案。然而,大模型的本质在于,通过预训练阶段大量吸收数据(有标签或者无标签均可),缓解下游小样本学习的压力。这就带来了一个新的矛盾:大模型看到的数据越多,模型就越需要适应一个广泛而分散的数据分布,因而通过小样本进行局部拟合的难度就越大。这很可能是制约大模型思路落地的一个瓶颈。

4.能否通过各种方式生成接近真实的数据?生成数据(包括虚拟场景或者GAN生成的数据)很可能会带来新的学习范式,然而这些数据和真实数据之间存在一种难以逾越的domaingap,制约了其在识别任务中发挥作用。我们提出问题:这种domaingap,本质上是不是特定的识别任务带来的learningbias?我们希望通过改变学习目标,使得这种domaingap得到缓解甚至消失,从而能够在有朝一日消灭人工标注,真正开启新的学习范式。

5.是否存在更高效的人机交互模式?目前,人机之间的交互效率还很低,我就经常因为为做PPT而头疼不已。我认为AI算法或许会深刻地改变人机交互的模式,使得以下场景变得更容易:多媒体内容设计和排版、跨模态信息检索、游戏微操作,等等。多模态算法很可能会在这波“人机交互革命”中发挥重要作用。

在我看来,上述任何一个问题,相比于无止境的烧卡刷点,都要有趣且接近本质,但是风险也要更大一些。因此,大部分研究人员迫于现实压力而选择跟风,是再正常不过的事情。只要有人在认真思考这些问题并且稳步推进它们,AI就不是一个遥不可及的梦。

限于时间,无法将上述每个点写得太仔细;同时限于水平和视野,我也无法囊括所有重要的问题(如可解释性——虽然我对深度学习的可解释性感到悲观,不过看到有学者在这个领域深耕,还是能够感觉到勇气和希望)。

非常欢迎针对各种问题的讨论,也希望这些观点能够引发更多的思考吧。

# 回答三

作者:陀飞轮

来源链接:

https://www.zhihu.com/question/460500204/answer/1902640999

先写两个最近火热我比较看好的方向Transformer和Self-Supervised,我这里举的例子倾向于计算机视觉方向。最后再补充Zero-Shot和多模态两个方向。

1.Transformer

自从去年DETR和ViT出来之后,计算机视觉领域掀起了Transformer狂潮。目前可以做的主要有两个路径,一个是魔改DETR和ViT,另一个是不同task迁移算法。

魔改DETR和ViT的方法,无非是引入local和hierarchical,或者魔改算子。

不同task迁移算法主要是探究如何针对不同的task做适配设计。

其中魔改DETR的可以参考以下工作:

[DeformableDETR][TSP-FCOS/TSP-RCNN][UP-DETR][SMCA][Meta-DETR][DA-DETR]

其中魔改ViT的可以参考以下工作:

魔改算子:

[LambdaResNets][DeiT][VTs][So-ViT][LeViT][CrossViT][DeepViT][TNT][T2T-ViT]

[BoTNet][Visformer]

引入local或者hierarchical:

[PVT][FPT][PiT][LocalViT][SwinT][MViT][Twins]

SwinTransformer对CNN的降维打击

引入卷积:

[CPVT][CvT][ConViT][CeiT][CoaT][ConTNet]

不同task迁移算法的可以参考以下工作:

ViT+Seg[SETR][TransUNet][DPT][U-Transformer]

ViT+Det[ViT-FRCNN][ACT]

ViT+SOT[TransT][TMT]

ViT+MOT[TransTrack][TrackFormer][TransCenter]

ViT+Video[STTN][VisTR][VidTr][ViViT][TimeSformer][VTN]

ViT+GAN[TransGAN][AOT-GAN][GANsformer]

ViT+3D[Group-Free][Pointformer][PCT][PointTransformer][DTNet][MLMSPT]

以上几个task是重灾区(重灾区的意思是听我一句劝,你把握不住)

ViT+Multimodal[FastandSlow][VATT]

ViT+Pose[TransPose][TFPose]

ViT+SR[TTSR]

ViT+Crowd[TransCrowd]

ViT+NAS[BossNAS]

ViT+ReID[TransReID]

ViT+Face[FaceT]

想一想算子怎么魔改,或者还有什么task没有做的

2.Self-Supervised

Self-Supervised自从何恺明做出MoCo以来再度火热,目前仍然是最为火热的方向之一。目前可以做的主要有三个路径,一个是探索退化解的充要条件,一个是Self-Supervised+Transformer探索上限,还有一个是探索非对比学习的方法。

探索退化解的充要条件主要是探索无negativepair的时候,避免退化解的最优方案是什么。

[SimCLR][BYOL][SwAV][SimSiam][Twins]

Self-Supervised+Transformer是MoCov3首次提出的,NLP领域强大的预训练模型(BERT和GPT-3)都是Transformer架构的,CV可以尝试去复制NLP的路径,探究Self-Supervised+Transformer的上限。

[MoCov1][MoCov2][MoCov3][SiT]

探索非对比学习的方法就是要设计合适的proxytask。

基于上下文[UnsupervisedVisualRepresentationLearningbyContextPrediction][UnsupervisedRepresentationLearningbyPredictingImageRotations][Self-supervisedLabelAugmentationviaInputTransformations]

基于时序[Time-ContrastiveNetworks:Self-SupervisedLearningfromVideo][UnsupervisedLearningofVisualRepresentationsusingVideos]

刚写了基于时序,何恺明和RossGirshick就搞了个时序的

ALarge-ScaleStudyonUnsupervisedSpatiotemporalRepresentationLearning

3.Zero-Shot

最近因为CLIP的出现,Zero-Shot可能会引起一波热潮,ViLD将CLIP成功应用于目标检测领域,相信未来会有越来越多的基于CLIP的Zero-Shot方法。

4.多模态

最近的ViLT结合了BERT和ViT来做多模态,并且通过增加标志位来巧妙的区分不同模态,感觉是一个非常好的做多模态的思路,相信未来会有更强大的多模态出现。

至于最近火热的MLP架构,极其不推荐,很沙雕。

最后,适当灌水,有能力还是要做有影响力的工作。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

人工智能专业就业方向及就业前景分析

人工智能专业介绍

人工智能是一门包含计算机、控制论、信息论、神经生理学、心理学、语言学等综合学科。人工智能是从计算机应用系统角度出发,研究如何制造出人造的智能机器或智能系统,来模拟人类智能活动的能力,以及延生人类智能科学。

AI需要非常广泛的知识面和训练,学AI的学生要做好思想准备的是,你们不仅需要CS的雄厚的基础知识,还需要了解一些认知心理学、语言学、哲学和工程学的知识才能在未来的发展更顺利。除此之外,还需要掌握一些技能和工具,例如统计学、神经科学、控制、优化和运筹学。所以AI的申请者不是以单纯地成为IT人为目的的,而是要拥有丰富的知识量和技能的,未来多是冲着做researcher而去的。

人工智能属于什么专业

人工智能属于自然科学和社会科学的交叉性学科,它与计算机科学、信息学、数学、神经生理学、认知科学、心理学等众多学科有极强的关联性。目前,人工智能在计算机领域内得到了广泛的重视,并在机器人,经济政治决策,控制系统,仿真系统等方面得到应用。

因此,从这些个解读考虑,在本科阶段可以选择与计算机、数学相关的专业,如计算机科学与技术、软件工程、通信工程、应用数学、统计数学等专业,以及近年来高校新设立的智能科学与技术、数据科学与大数据技术等专业。此外,也还可以考虑自动化、机械类专业,有些高校在此类专业基础上延伸至人工智能方向。

学习人工智能相关院校推荐

北京大学、清华大学、复旦大学、上海交通大学、南京大学、浙江大学、中国科学技术大学、哈尔滨工业大学、西安交通大学等。2017年5月28日,中国科学院大学发文成立人工智能技术学院,成为我国人工智能技术领域首个全面开展教学和科研工作的新型学院。这些高校都可以作为第一选择,不过各校人工智能研究的方向不同,要区分选择。

目前开设智能科学与技术专业的高校已有三十多所,也可以选择,如北京邮电大学、中南大学、南开大学、厦门大学、湖南大学、首都师范大学、西安电子科技大学、武汉工程大学、北京科技大学等等。智能科学与技术专业是北京大学智能科学系在2003年提出成立的,智能科学系主要从事机器感知、智能机器人、智能信息处理和机器学习等交叉学科的研究和教学。

AI的就业方向主要有,科研机构(机器人研究所等),软硬件开发人员,高校讲师等。当然了,鉴于一些高科技公司开辟出了新的研究领域,比如谷歌的无人驾驶汽车,在国内的话就业前景是比较好的,国内产业升级,IT行业的转型工业和机器人和智能机器人以及可穿戴设备的研发将来都是强烈的热点正好都是3-5年后的时间,正好是同学们学成归来的时候!

1)搜索方向:百度、谷歌、微软、yahoo等(包括智能搜索、语音搜索、图片搜索、视频搜索等都是未来的方向)。

2)医学图像处理:医疗设备、医疗器械很多都会涉及到图像处理和成像,大型的公司有西门子、GE、飞利浦等。

3)计算机视觉和模式识别方向:前面说过的指纹识别、人脸识别、虹膜识别等。还有一个大的方向是车牌识别。目前鉴于视频监控是一个热点问题,做跟踪和识别也不错。

4)还有一些图像处理方面的人才需求的公司如威盛、松下、索尼、三星等。

人工智能人才需求呈上涨趋势

在智联招聘发布的《2017人工智能就业市场供需与发展研究报告》中我们可以看到,人工智能人才是一个很大的缺口,需求量骤升。

还有在《2017人工智能就业市场供需与发展研究报告》显示,过去一年中,人工智能的人才需求增长近3倍,并且40%拥有AI技能的人才现阶段薪酬区间主要集中于10001元至15000元/月,远高于全国平均水平。

所以人工智能的就业前景非常不错,人工智能发展也处于比较好的阶段。

 

人工智能前景好不好

今年,人工智能、移动终端、云计算、大数据等相关专业应届生备受企业关注,同学们都是被几家企业同时抢着要。数据显示,我国人工智能相关人才缺口超过500万,“坑多萝卜少”的现状让企业展开了校园人才争夺战。国家提出了人工智能三步走的发展战略,现在人工智能已经上升到战略层面。在今年的人大会议中,总理在政府工作报告中再提“人工智能”。我们都知道,被列入国家发展规划后,国家会颁发很多政策去促进这一计划的实现,所以越早进入人工智能领域就越有发展潜能。

这是一个属于人工智能的时代。当前,人工智能是一颗闪耀的“明星”,已经成为国际竞争的新焦点,世界多国都在加紧人工智能发展布局,以至于提到了战略高度的地位。人工智能专业毕业后可以留校当老师,公司研发岗位,人工智能实验室等。具体岗位有:数据挖掘工程师、下位机算法工程师、售前技术支持(商业智能方向)、行业研究员(股市)、科技公司的电气工程师、C/C++算法开发工程师等等。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇