博舍

深度学习——第一次浪潮、寒冬及解冻 人工智能第一次浪潮结束

深度学习——第一次浪潮、寒冬及解冻

浪起原因:感知机的诞生持续时间:1943年—1969年寒冬原因:感知机(单个神经元)无法解决异或等线性不可分问题。解冻:1986年之后多层神经网络解决异或等线性不可分问题。

详情:1943年神经元数学模型MP诞生,奠定了神经网络大厦的地基,但权值是写死的,不能学习。1949年提出Hebb学习率,奠定了学习算法(学习规则)的演进方向——调整权值——后续的BP算法啦等都是这一方向,即怎么调整权值?1958年感知器诞生(激活函数是阶跃函数),标志了单层神经网络的诞生,第一次浪潮的开启(浪起来!)。1969年minsky发表论文《Perceptrons》说感知器(单个神经元)不能解决异或等线性不可分的问题且多层神经网络也没有什么科学意义。这造成了二十年寒冬。然后怎么解决呢?多层神经网络来解决。——经过十年左右的探索,如下:1986年BP反向传播算法诞生,解决了多层神经网络的学习计算问题,掀起了多层神经网络的火热。第一次寒冬破碎。比如用两层感知机(两层神经网络)解决了异或问题(1输入层、1层隐藏层、1层输出层,为何叫2层?因为输入层不用计算,只有2层是计算层,应该是按照计算层算层数的吧):因为隐藏层的一个感知器(神经元)可以划出一条线,2个就能划2条线,异或问题就用2条线解决了。于是神经网络第一次寒冬融化,进入了第二次浪潮。

小结:感知机(感知器)是第一次浪潮,无法解决非线性问题导致第一次寒冬,又因多层神经网络和BP反向传播算法的出现而解冻,开启第二次浪潮。神经网络的发展不是一蹴而就、一出现就成神的。它刚开始无法解决非线性问题,导致第一次寒冬(被抛弃),然后又有人不放弃它,比如hinton等人提出了BP算法,解决了多层神经网络学习的问题,从此神经网络算法进化到了能解决非线性问题的阶段。——一路荆棘,一路坎坷,但总有人初心不改,推动它的不断进化。

但值得注意的是,MP神经元数学模型(后来的神经元都基于此而来)不是真实的大脑神经元的数学模型,因为至今人类还没有搞懂大脑神经网络。也许有一天人类研究透彻了,真正的神经元数学模型出现了,那么将会出现另一个奇观。

陈小平:人工智能进入第四次发展浪潮,行业迎来新机遇和挑战

生成式人工智能的语言痕迹提取和关联

人工智能现阶段的应用是生成式的,且已不再是狭义的生成语言、图像等内容,而是从人到AI、从AI到人的交互。“我认为,自然语言人机交互的重点是,会说话,能听懂人话,能回答问题,但不能保证回答一定正确。对机器语言表达的基本要求,是说话要符合人的语言习惯。”陈小平表示,语言习惯是什么,现在没有科学标准,但是有经验标准。所以关键是要掌握并利用这个经验标准,这就要从人类规模语料中自动提取语言痕迹,并用于人机自然语言交互。

语言痕迹来源于原始语料。陈小平用两个句子组成的语料进行简单举例:用于训练的语料分别为“我要上网,请打开浏览器。”“我要听歌,请打开音响。”这两句话反复说,且概率分别为0.6和0.4。如果基于相邻语元之间关联度的预测,也就是给定一个语元,预测下一个出现的语元,不确定情况下预测错误率过高。比如从“要”预测“上网”的错误率达到40%。如果基于语言痕迹远程关联度时(远距离语元之间的关联强度),“上网”与“浏览器”语元虽然不相邻,但具有高关联度,若已出现“打开”和“上网”,预测出“浏览器”的错误率为0。

对此,陈小平表示,基于语言痕迹远程关联时,预测错误率可以大大降低。这也是为什么大家觉得大模型好用。“虽然举例的两个句子只有六个语元,但在实际应用中,是从人类规模语料中提取语元关联度,用于自然语言人机交互,数据的量很大。人工智能可以回看的语元至少超过4000个,甚至已经有可以回看10万个语元的大模型发布。”陈小平指出,如果将互联网三分之一到三分之二的语言痕迹都抓取做成模型,大模型将非常强大。

上述所说的抓取语言痕迹,训练语言痕迹,对语言痕迹做关联,被称为预训练模型。这是大模型技术体系中的一部分。陈小平表示,实际上,预训练以后的实际效果可能不够理想,不够精细,此时就可以引入一种方法——细调。“细调类似于收音机的调台旋钮,一般收音机不清晰时,就需要细调旋钮,直至内容变得清晰。”陈小平表示,细调是专门训练出的专用模型,通俗来说,不是大范围的调整,而是有一个目标后,针对当前矛盾去细调。经过细调后的大模型应用效果会大幅提升。但是细调不是凭空实现的,需要大量的语言数据进行支撑,且用不同的数据进行不同的细调。例如聊天用聊天的细调,编程用编程的细调。

然而,细调后的大模型效果可能还是不够,还可以运用“提示”。“这是小规模的训练,为用户引导模型的回答。也就是在提问题时,不仅要提问,还要给出一些提示。如果提示说得好,回答的质量也会大幅提升。”

值得一提的是,大模型是实例性模型,是从训练预料中提取的语元和语言关联度的全体组成的模型,它没有概括性规则,无法进行数学-逻辑推理。“大模型是一种颠覆,我们需要用新的观念、新的理念去看待。”陈小平说。

物理世界下,人工智能的应用

一些科幻电影刻画出的机器人具有自己的情绪、情感,会有自己的思想。陈小平直言,拟人化想象对大模型以及所有通过了大规模验证的人工智能都不成立。“即使在和人工智能交互的工作中,会从语言中感受到情感、情绪,这也是因为语言的投射效应,即脑补。”陈小平表示,人说话都带涵义,所以习惯性地将自己理解的涵义投射到大模型上,认为大模型说话也带涵义。“对大模型人工智能做拟人化想象,是不科学的。”

同时,大模型还会带来新的挑战。首先是公共安全,其次是就业问题。“2017年开启人工智能第四次浪潮的标志性实践,就是AlphaGoZero围棋程序面世,且该程序的围棋水平已经超过职业选手。现在,人类积累了千年的围棋知识很少再是人工教授或者看书,大家都开始通过这个程序进行训练和学习,人与人的对练已经很少。”他表示,虽然围棋是很小的领域,但未来大模型的应用可能会延伸到各领域,也有可能发生类似围棋领域的情况,从而影响就业。

人工智能如何在物理世界中应用,也是很大的挑战。比如现实世界中的家庭、医院、工业、农业场景,现在的大模型是无法胜任的。陈小平表示,现在在工业上普遍应用的机械臂,基本上都是刚性的,这类机器人重复精度高,但灵巧性、安全性低,适合用于结构化环境。对于更复杂的非结构化环境,需要精确测量、建模和计算,这就需要软体机器臂(柔性机器人手臂),也就是软体机器人。这类产品采用蜂巢气动网络结构,为材料-机构-算法的一体化设计。据陈小平介绍,与传统机械手臂相比,软体机器人在制作成本、负载能力、后期维护等方面都具有较高的优势。陈小平在现场通过几个视频,分享了软体机器人在喂饭、开门、拧瓶盖、拉抽屉等多个场景的应用。

对于人工智能在中国的应用,陈小平表示:“我认为,对于中国,大模型在智能制造、智慧农业、惠普养老三方面能得到很好的应用后,将迎来巨大的机遇。”返回搜狐,查看更多

人工智能的发展史——3次 AI 浪潮

AI不是什么全新的东西,他已经发展了大几十年了!下面我们介绍一下最具代表性的3个发展阶段

第一次浪潮(非智能对话机器人)

20世纪50年代到60年代

1950年10月,图灵提出了人工智能(AI)的概念,同时提出了图灵测试来测试AI。

图灵测试提出没有几年,人们就看到了计算机通过图灵测试的“曙光”。

1966年,心理治疗机器人ELIZA诞生

那个年代的人对他评价很高,有些病人甚至喜欢跟机器人聊天。但是他的实现逻辑非常简单,就是一个有限的对话库,当病人说出某个关键词时,机器人就回复特定的话。

第一次浪潮并没有使用什么全新的技术,而是用一些技巧让计算机看上去像是真人,计算机本身并没有智能。

扩展阅读:

ELIZA——Wikipedia

图灵测试

第二次浪潮(语音识别)

20世纪80年代到90年代

在第二次浪潮中,语音识别是最具代表性的几项突破之一。核心突破原因就是放弃了符号学派的思路,改为了统计思路解决实际问题。

在《人工智能》一书中,李开复详细介绍了这个过程,他也是参与其中的重要人物之一。

第二次浪潮最大的突破是改变了思路,摒弃了符号学派的思路,转而使用了统计学思路解决问题。

扩展阅读:

HistoryofSpeech&VoiceRecognitionandTranscriptionSoftware

第三次浪潮(深度学习+大数据)

21世纪初

2006年是深度学习发展史的分水岭。杰弗里辛顿在这一年发表了《一种深度置信网络的快速学习算法》,其他重要的深度学习学术文章也在这一年被发布,在基本理论层面取得了若干重大突破。

之所以第三次浪潮会来主要是2个条件已经成熟:

2000年后互联网行业飞速发展形成了海量数据。同时数据存储的成本也快速下降。使得海量数据的存储和分析成为了可能。

GPU的不断成熟提供了必要的算力支持,提高了算法的可用性,降低了算力的成本。

在各种条件成熟后,深度学习发挥出了强大的能力。在语音识别、图像识别、NLP等领域不断刷新纪录。让AI产品真正达到了可用(例如语音识别的错误率只有6%,人脸识别的准确率超过人类,BERT在11项表现中超过人类…)的阶段。

第三次浪潮来袭,主要是因为大数据和算力条件具备,这样深度学习可以发挥出巨大的威力,并且AI的表现已经超越人类,可以达到“可用”的阶段,而不只是科学研究。

扩展阅读:

什么是深度学习?

推荐书籍——《大数据时代》

为什么说GPU和深度学习更配?

谷歌最强NLP模型BERT解读

三次浪潮的不同

这段内容摘自李开复写的《人工智能》一书中,所有观点是李开复本人的,这里只是转述。

前两次热潮是学术研究主导的,第三次热潮是现实商业需求主导的。前两次热潮多是市场宣传层面的,而第三次热潮是商业模式层面的。前两次热潮多是学术界在劝说政府和投资人投钱,第三次热潮多是投资人主动向热点领域的学术项目和创业项目投钱。前两次热潮更多时提出问题,第三次热潮更多时解决问题。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇