什么是深度学习有什么优点和缺点
人工智能(AI)是一门科学,机器学习(ML)是目前最主流的人工智能实现方法,而深度学习(DL)则是机器学习(ML)的一个分支,也是当下最流行的机器学习(ML)的一种。
深度学习在机器学习领域是一个很热的概念,经过媒体和大V等炒作,这个概念变得近乎有些神话的感觉,下面让我来慢慢揭开深度学习的神秘面纱。^_^
深度学习(DeepLearning)的概念由Hinton等人于2006年提出。基于深度置信网络(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。
那么究竟什么是深度学习呢?深度学习(DL)是机器学习中一种基于对数据进行表征学习的方法,是一种能够模拟出人脑的神经结构的机器学习方法。深度学习的概念源于人工神经网络的研究。而人工神经网络ANN(ArTIficialNeuralNetwork)是从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络,简称为神经网络或类神经网络。因此,深度学习又叫深层神经网络DNN(DeepNeuralNetworks),是从之前的人工神经网络ANN模型发展而来的。
深度学习是机器学习研究中的一个新领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,比如图像,声音和文本等。深度学习,能让计算机具有人一样的智慧,其发展前景必定是无限的。
同机器学习方法一样,深度机器学习方法也有监督学习与无监督学习之分.不同的学习框架下建立的学习模型很是不同.例如,卷积神经网络(ConvoluTIonalneuralnetworks,简称CNNs)就是一种深度的监督学习下的机器学习模型,而深度置信网(DeepBeliefNets,简称DBNs)就是一种无监督学习下的机器学习模型。
深度学习所涉及的技术主要有:线性代数、概率和信息论、欠拟合、过拟合、正则化、最大似然估计和贝叶斯统计、随机梯度下降、监督学习和无监督学习、深度前馈网络、代价函数和反向传播、正则化、稀疏编码和dropout、自适应学习算法、卷积神经网络、循环神经网络、递归神经网络、深度神经网络和深度堆叠网络、LSTM长短时记忆、主成分分析、正则自动编码器、表征学习、蒙特卡洛、受限波兹曼机、深度置信网络、softmax回归、决策树和聚类算法、KNN和SVM、生成对抗网络和有向生成网络、机器视觉和图像识别、自然语言处理、语音识别和机器翻译、有限马尔科夫、动态规划、梯度策略算法和增强学习(Q-learning)等等。
讨论深度学习,肯定会讲到“深度(Depth)”一词,“深度”即层数。从一个输入中产生一个输出所涉及的计算可以通过一个流向图(flowgraph)来表示:流向图是一种能够表示计算的图,在这种图中每一个节点表示一个基本的计算以及一个计算的值,计算的结果被应用到这个节点的子节点的值。考虑这样一个计算集合,它可以被允许在每一个节点和可能的图结构中,并定义了一个函数族。输入节点没有父节点,输出节点没有子节点。这种流向图的一个特别属性是深度(depth):从一个输入到一个输出的最长路径的长度。
深度超过8层的神经网络才叫深度学习。含多个隐层的多层学习模型是深度学习的架构。深度学习可以通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
深度学习的”深度“是指从”输入层“到”输出层“所经历层次的数目,即”隐藏层“的层数,层数越多,深度也越深。所以越是复杂的选择问题,越需要深度的层次多。除了层数多外,每层”神经元“-黄色小圆圈的数目也要多。例如,AlphaGo的策略网络是13层,每一层的神经元数量为192个。
深度学习可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。多层的好处是可以用较少的参数表示复杂的函数。
深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。因此,“深度模型”是手段,“特征学习”是目的。深度学习强调了模型结构的深度,突出了特征学习的重要性,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。
深度学习的训练过程:1)自下上升非监督学习,从底层开始,一层一层的往顶层训练。采用无标定数据(有标定数据也可)分层训练各层参数,这是一个无监督训练过程,是和传统神经网络区别最大的部分,这个过程可以看作是featurelearning过程。
2)自顶向下的监督学习,通过带标签的数据去训练,误差自顶向下传输,对网络进行微调。基于第一步得到的各层参数进一步fine-tune整个多层模型的参数,这一个有监督训练过程。
深度学习的第一步不是随机初始化,而是通过学习输入数据的结构得到的,因而这个初值更接近全局最优,从而能够取得更好的效果。所以深度学习效果好很大程度上归功于第一步的featurelearning过程。
对深度学习而言,训练集就是用来求解神经网络的权重的,最后形成模型;而测试集,就是用来验证模型的准确度的。
深度学习领域研究包含:优化(OpTImizaTIon),泛化(Generalization),表达(Representation)以及应用(Applications)。除了应用(Applications)之外每个部分又可以分成实践和理论两个方面。
根据解决问题、应用领域等不同,深度学习有许多不同实现形式:卷积神经网络(ConvolutionalNeuralNetworks)、深度置信网络(DeepBeliefNetworks)、受限玻尔兹曼机(RestrictedBoltzmannMachines)、深度玻尔兹曼机(DeepBoltzmannMachines)、递归自动编码器(RecursiveAutoencoders)、深度表达(DeepRepresentation)等。
深度学习的优点:深度学习提出了一种让计算机自动学习出模式特征的方法,并将特征学习融入到了建立模型的过程中,从而减少了人为设计特征造成的不完备性。而目前以深度学习为核心的某些机器学习应用,在满足特定条件的应用场景下,已经达到了超越现有算法的识别或分类性能。
深度学习的缺点:只能提供有限数据量的应用场景下,深度学习算法不能够对数据的规律进行无偏差的估计。为了达到很好的精度,需要大数据支撑。由于深度学习中图模型的复杂化导致算法的时间复杂度急剧提升,为了保证算法的实时性,需要更高的并行编程技巧和更多更好的硬件支持。因此,只有一些经济实力比较强大的科研机构或企业,才能够用深度学习来做一些前沿而实用的应用。
深度学习成功应用于计算机视觉、语音识别、记忆网络、自然语言处理等其他领域。
深度学习是关于自动学习需要建模的数据潜在分布的多层表达的复杂算法。深度学习算法自动的提取分类需要的低层次或者高层次特征。总之,深度学习是用多层次的分析和计算手段,得到结果的一种方法。
结语目前深度学习的发展引起其他它领域的革命。深度学习的火热得益于各行各业丰富的大数据发展和计算机计算能力的提升,同时也要归功于过去经验。今后深度学习将继续解决各种识别(Recognition)和演绎(AbilitytoAct)方面的相关问题。当然,机器学习本身也不是完美的,也不是解决世间任何机器学习问题的利器,深度学习目前仍有大量工作需要研究,不应该被放大到一个无所不能的程度。
中国人工智能创新处于什么发展水平
◎编辑|数字经济先锋号
◎来源|北京工业大学学报
◎作者|王山陈昌兵
人工智能作为新技术创新的代表与引领未来、重塑传统行业结构的前沿性与战略性技术,逐渐成为全球新一轮科技革命和产业变革的重要驱动力量。世界各国在以创新为主的人工智能新技术方面展开了激烈的角逐与残酷的竞争。
目前,我国人工智能技术创新水平如何?技术处于何种发展阶段?我国发展人工智能的优势在哪?未来我国人工智能发展趋势如何?本文即将告诉你答案。
指标体系的构建
基于技术创新大数据,本文创新性地构建多指标测度体系与技术创新综合发展指数;根据综合发展指数模拟各国人工智能技术创新S演化曲线,描绘动态演变轨迹并定位中美技术创新发展位置。重点结合五维度在不同阶段的权重分布,比较中美新技术创新发展差距,探讨影响我国人工智能新技术创新发展的主要因素。提出提高新技术创新水平的具体措施与发展建议,助力实现我国人工智能关键核心技术突破、摆脱被先发国家控制的劣势地位。
表1人工智能技术创新发展水平多指标测度体系
根据技术创新周期不同发展阶段可能呈现出的特征与各特征之间的内在逻辑关系,同时结合人工智能新技术创新发展影响因素与技术创新发展测度相关参考文献,我们选择了基础研究、技术创新、科技布局、产业规模与技术进步5个维度来测度人工智能技术创新发展水平(如表一所示)。
根据指标熵权计算式得到的人工智能技术创新水平各测度指标的权重值(Wj)(如表二所示)。从单个指标权重看,首先体现产业规模的人工智能技术融资规模指标权重最高,然后为人工智能新增企业数指标;其次为体现技术创新程度的人工智能技术优先权年专利申请量指标,研发课题数指标权重最低。从分析维度看,首先产业规模维度权重最大;其次为技术创新维度与科技布局维度,基础研究维度权重值最小。综上可知,产业规模与技术创新维度各参数动态变化对人工智能技术创新所处发展阶段的判断具有显著影响。
表2人工智能技术创新水平测度指标权重值
中美等国的对比与分析
根据分析,目前,我国人工智能技术正处于快速发展的技术成长期后期,技术创新十分活跃,未来将涌入更多的企业和科研机构,竞争也将越来越激烈。而美国人工智能技术萌芽于1990年,于2005年步入技术成长期,2020年开始走向成熟,并预计于2034年进入技术衰退期,目前正处于开展商业应用的技术成熟期,创新动力将持续增强。(拟合优度是指回归直线对观测值的拟合程度。度量拟合优度的统计量是可决系数(亦称确定系数)R²。R²最大值为1,越接近1,说明回归直线对观测值的拟合程度越好,表三可见各国人工智能技术创新S演化曲线拟合优度R²均在0.9以上,拟合效果较为理想。——数字经济先锋号注)
表3中美等国人工智能技术创新发展阶段判定
日本、英国、法国与德国作为较早启动人工智能新技术研究开发与科研成果推广应用的主要发达国家,同样具有较大的先发优势,其技术创新发展水平早期均位列世界前沿且技术发展历程与演化轨迹比较相似,均在1990年左右进入技术创新萌芽期,后经技术不断地积累、发展与突破,分别于2005年与2019年左右步入技术创新成长期与成熟期,目前技术已经成熟。
图1中美等国人工智能技术创新周期S曲线
得益于雄厚的科技与经济实力,美国人工智能技术创新累计综合发展指数遥遥领先于其他各国,日英法德4国作为人工智能新技术创新发展早期的追随者与前期领导者,在人工智能技术领域,同样具有较高的发展水平与先发优势,鉴于人工智能技术创新是一个显著的动态累计过程,且发展周期较长,美日等世界主要发达国家并未因前期先发优势而形成技术发展垄断局面,因而为后发国家的技术追赶提供了巨大的机会窗口。
由图1技术创新演变曲线可预测出,在技术经验渐进性积累与自主创新能力不断提升的条件下,我国正逐步缩小与美国在人工智能新技术创新赛道上的发展差距,预计将在人工智能新技术创新发展的成熟期实现技术的追赶与超越。
目前,中国人工智能技术创新累计综合发展指数已超越英法德日4国,但与技术创新水平处于全球领先地位的美国相比仍有较大发展差距。本文从人工智能新技术创新累计综合发展指数增长率探索未来中国是否能反超美国并掌握创新发展的主导权,图2是各国人工智能技术创新累计综合发展指数增长率变化结果。
图2拟合中美等国人工智能技术创新累计综合发展指数增长率
由图2可知,1985-2003年,美国、英国、法国、德国与日本人工智能技术创新累计综合发展指数增长速率基本处于快速上升状态,尤其是美国。而我国的人工智能技术创新起步晚于美国,在基础研究原创性成果的不足或某些前沿领域的投入缺失的情况下错失了先发优势。但在国家大力扶持与自主创新能力不断提升的情况下,我国人工智能技术发展呈现出了非常强劲的增长态势。
因此,可以预见,在当前快速增长态势下,再加上后天技术的积累以及先发的数据优势,我国必将在人工智能新技术这一赛道上领跑全球。
影响因素动态分析
我国人工智能新技术创新发展速度较快,但关键核心技术水平与美国相比仍有差距。技术创新是一个多阶段过程,不同发展阶段因所需资源、条件不同而影响因素权重不同。本节创新性地引入技术创新不同阶段变量,动态分析不同阶段下人工智能技术创新的多指标测度体系中维度权重变化。进一步深入剖析我国人工智能新技术创新发展的影响因素。
由表四可以看出,中美两国在人工智能技术的发展阶段、技术创新和技术进步等方面存在差异。美国在人工智能新技术基础研究投入、技术创新布局、技术产业链上游的占据等方面具有较为显著的优势,而我国在科技布局、产业规模和融资份额等方面具有一定优势。但是,我国与美国相比,技术进步较为缓慢,尤其是在芯片领域存在较大差距,这将对我国的人工智能产业化形成不利影响。
因此,我们应该着眼于加强人工智能领域的基础研究,不断提升自主创新能力,积极推动技术创新和进步,在技术产业链上游抢占制高点,实现由技术跟随到技术引领的转变。同时,也需要加强与市场的有效结合,促进技术产业化的发展,让科技创新更好地服务于经济社会的发展,实现以科技创新驱动高质量发展的目标。
表4人工智能技术不同发展阶段影响因素权重分布
通过与美国的比较不难看出,我国人工智能新技术创新在基础研究、技术创新与技术进步维度,仍有相当发展空间,由于缺乏占据世界产业制高点的核心技术,存在若干被他国“卡脖子”的领域。
图3中美等国人工智能技术创新逐年发展指数
虽然我国人工智能新技术研发起步较晚,基础研究薄弱,技术创新累计综合发展指数与美国存在较大差距,但由技术创新逐年综合发展指数(图3)可知,我国人工智能新技术创新发展指数自2003年开始逐年上升,正不断缩小与美国人工智能技术创新累计综合发展指数的差距。作为后起之秀,在经历长期以技术跟随为主的技术潜伏期与萌芽期,以及二次创新为主的技术成长期后,依靠后发优势,我国于2017年反超自2003年以来技术创新逐年发展指数呈逐步下降态势的美国,跃居全球首位。
结论及建议
本文基于人工智能技术创新科研大数据,提出了人工智能技术创新水平多指标测度体系与技术创新综合发展指数计算模型,并通过绘制技术创新生命周期S演化曲线,对我国与世界主要发达国家在人工智能技术创新方面的发展阶段进行了评估与预测,深度剖析了我国与美国等国之间在技术创新、科技布局、产业规模、技术进步等方面的差距。
基于这些结论,本文提出了几点建议。首先,要强化基础研究,加大对基础研究长期稳定的支持力度,同时引导企业增加基础研究投入,提高我国基础研究水平和源头创新能力。
其次,要推动应用研究与基础研究的融合贯通,坚持问题导向、目标导向,设立重大科技计划项目,支持设立联合攻关团队(校企联合或校校联合等),或以企业为主导并协调高校和有关科研院所的资源,对有关人工智能的应用技术进行研究开发(委托研究、联合研究等形式)。
此外,还建议要产业化市场化发展,中国目前以高校为主、各自为战的人工智能研发体系不利于中国人工智能产业对前沿技术的把握和整体技术创新水平的进一步提升,也不利于技术的快速转化应用。建议培育一批技术先进、世界领先的企业,并带动产业上下游协同发展,形成持续创新能力、技术全球领先的产业集群。
最后,要完善技术创新机制,应鼓励企业培育和引进掌握关键核心技术的科技领军人才和团队,为产业发展提供智力支持;建立综合的关键核心技术突破与创新机制,将短期与中长期科技积累相结合,建立国家基础研究、产业科技等方面的公私结合的综合创新体系,将产业发展创新需求、国家战略创新需求、科研好奇创新需求等三大方面的创新动力综合起来,并重结合,实现“远水”和“近渴”的融合。
综上所述,通过实施这些建议,我国在人工智能技术创新方面可以进一步提升自身的科技水平和创新能力,缩小与美国等发达国家的差距,加速我国在人工智能领域的发展进程。
原文来源:王山,陈昌兵.中美人工智能技术创新的动态比较——基于人工智能技术创新大数据的多S曲线模型分析[J/OL].北京工业大学学报(社会科学版)。(因篇幅原因,本文有部分删减)
关于我们
「数字经济先锋号」是成都数联产服科技有限公司旗下数字经济研究交流平台。围绕数字产业、数字基建、数字治理、数字生态等数字应用领域,揭示与记录数字经济发展点滴与脉络。
数联产服是一家数字经济行业智库、产业大数据服务商,具备全流程大数据治理-分析-决策支撑服务能力,面向各级政府和产业运营机构提供基于大数据的产业经济发展解决方案和综合服务。