博舍

定义人工智能的十个关键术语 人工智能定义内涵的理解

定义人工智能的十个关键术语

从大数据到ChatGPT,这里有10个定义人工智能的关键术语。

人工智能是机器,尤其是计算机系统对人类智能过程的模拟。人工智能的具体应用包括专家系统、自然语言处理、语音识别和机器视觉。人工智能的采用不仅受到计算能力的提高和新算法的推动,还受到现在可访问数据的增长的推动。本文将讨论定义2023年人工智能的10个关键术语。

大数据

经过统计分析以获得详细见解的海量数据集。这些数据可能涉及数十亿条记录,需要强大的计算机处理能力。数据集有时会链接在一起,以查看一个域中的模式如何影响其他领域。数据可以结构化为固定字段,也可以非结构化为自由流动的信息。对大数据的分析,通常使用人工智能,可以揭示模式、趋势或潜在的关系,这些都是研究人员以前没有发现的。

聊天机器人

聊天机器人,或对话代理或虚拟助理,是一种能够根据上游编写的对话脚本与用户对话的系统。其作用是最大限度地回答互联网用户、客户或工作人员经常提出的问题。因此,可以自动化重复性任务,让员工更好地利用时间。

ChatGPT

ChatGPT界面建立在GPT-3.5之上。GPT-3.5是OpenAI开发的一种重要语言模型,其在大量的互联网文本数据上进行训练,并经过微调,以执行广泛的自然语言任务。如,GPT-3.5针对语言翻译、文本摘要和问答等任务进行了微调。

云机器人

这是一个机器人技术领域,其试图调用云技术,如云计算、云存储和其他以融合基础设施和机器人共享服务的好处为中心的互联网技术。当连接到云时,机器人可以受益于云中现代数据中心强大的计算、存储和通信资源,这些数据中心可以处理和共享来自各种机器人或代理(其他机器、智能对象、人类等)的信息。人类还可以通过网络将任务远程委托给机器人。

深度学习

深度学习是另一个依赖人工神经网络的人工智能领域。这种方法鼓励计算机和其他设备在实践中学习,就像人一样。因为神经网络有隐藏层,所以创造了“深度”这个词。为了自动化预测分析,使用了算法层次结构。深度学习已在包括航空航天和军事在内的各个行业获得关注,以识别来自卫星的事物、通过识别员工靠近机器时的危险情况来确保员工安全、癌细胞检测等。

边缘计算

边缘计算使计算更接近数据源,从而减少延迟、带宽和能源使用。开发人员和企业可以在边缘使用人工智能显着降低实时数据处理的基础设施要求。为了避免系统故障,用于自动驾驶系统的智慧城市、工厂和汽车企业集成了这项技术。

游戏人工智能

游戏人工智能是一种使用算法来代替视频游戏中的随机性的人工智能。这是一种由非玩家角色使用的计算行为,用于生成类似人类的智能和玩家在比赛中采取的反应性行为。它是搜索次数最多的人工智能术语之一。

GPT-4

GPT-4是OpenAI深度学习工作的最新模型,是扩展深度学习的重要里程碑。GPT-4也是第一个GPT模型,它是一个相当大的多模式模型,这意味着它接受图像和文本输入并发出文本输出。

大型语言模型(LLM)

LLM使用机器学习算法来预测人类语言、代码,甚至执行情感分析。未来的LLM,不仅仅是反刍文字,很可能会反映情感。

机器学习

机器学习是人工智能的组成部分之一。该术语指的是机器(例如聊天机器人)被赋予自动学习能力的过程。因此,该系统开发了破译互联网用户意图的能力,以提供适应性响应并做出有效决策。

智能治理

4、这一轮GPT所代表的人工智能的进化,用一种非常接近于人类大脑的模式,拟人的办法去完成的。在他的前一代,谷歌的BERD路径是完形填空,可以看看左边,看看右边,猜中的概率就大得多。但是GPT是顺着流,就是从左边到右边扫过去,每次都是算下一个字出现的概率,这个与人类的思维的流向非常接近。ChatGPT在数字世界第一次实现了类大脑皮层的一种结构,是一次翻天覆地的变化。

此前,我一直认为中国的数字经济、数字科技跟美国有差距,但是差点不多。但是这一轮滔天巨浪,所有人都明白了,这可不是差点不多,至少人家拉出我们24个月开外的距离。ChatGPT是他的3.5版,是在GDP-3的基础上生成,GPT-3在GPT-2的基础上生成,自我生成、自我迭代、自我成长。

现在GDP-4的智商145,正常人类智商是90~110之间,据说现代人智商最高的爱因斯坦160,它接近于那样一个天才的智商,这还是通识领域。他在生物的奥林匹克竞赛中战胜了99%的人,大家想一想出了一个多大的事情?

ChatGPT出现了一个堪比电的发明,互联网的发明,一个产品型的通用技术的发明,毫无疑问它会引发第四次工业革命,各行各业都将被这套技术所影响、所赋能、所颠覆,尤其是与知识生产、知识传承相关的行业。

ChatGPT的涌现、统一机制。按照我的理解,当这套大模型的路径正确,灌入的数据量足够大的时候,它突然出现了指标跳跃式的增长,它突然就开悟了。就像小孩骑自行车,一开始的晃晃荡荡,后边还要加两轮,大人扶着,某一天,突然一瞬间他就会了,这就是涌现。还有统一,原来人与计算机的交流,用文字是一个模态,用语言是一个模态,用图像是一个模态,现在他把几个模态合为一个了,这也是个巨大的提升。涌现现象、统一现象背后的科学机理,到现在为止还没有完全统一的解释。

ChatGPT现在虽然没有全世界公认,应该说已经基本通过了图灵测试。图灵测试是1950年由英国科学家图灵提出,在一个黑的屋子里,我与对方,可能是人也可能是一个计算机交流,当我分辨不出它是人还是计算机的时候,就算通过了图灵测试。我用纸带跟他交流,肯定它是机器,我用图形界面跟他交流,他肯定是个机器,今天这个已经非常接近了。

通过图灵测试意味着什么?意味着人类的智力会可能出现一次巨大的解放。因为来了一个与我们智力相当的助手。工业革命解决了人类体力的解放问题,这一轮的人工智能革命是人的智力的解放。

ChatGPT革命爆发的条件

OpenAI团队,ChatGPT的原创团队,并没有发明一项独创技术。它的基础训练底盘Transformer是谷歌发明的,包括提示学习、指令精调、思维链、RLHF等主要算法都不是他发明的,他就是一个集成式创新的高手,工程化能力、集成创新的能力非常强。显然达到了这样一个爆发点,也有一系列的条件。

1、算法。人工智能算法的迭代进步。1950年开始,小规模专家学习,试图让专家来教计算机学,把各种各样的规则灌给他,40年平平淡淡。1990年开始知道用人来教他这个路不对,开始让机器自己学。一开始由于技术、算力等原因,机器学习神经网络就比较浅,叫浅层机器学习,开始模仿人类的神经元,把一组数据推进去,它通过运算把结果反射出来,那时的神经元一般是两三层,最多不超过三层,这个阶段叫做浅层机器学习。

到了2010年,深度机器学习之父,辛顿、杨丽坤和约书亚,发现了深度神经网络,几十层,信息流不仅仅横向走,也可能出现斜向、纵向,神经网络就非常复杂了,这与人的大脑就越来越接近了。近五年就开始预训练,Transformer出来了。人工智能算法形成了倍速发展的态势。

2、算力。GPT-3的训练,用了13,000张A100GPU。GPT所使用的总算力是3640PF-days,相当于是每秒钟运算1000万次的计算机要运算10年,这么一个运算强度。这个东西为什么以前算不出来?因为以前的能量与算力的条件没到,这显然是巨大的能量、算力来叠加。

3、算料。OpenAI团队给ChatGPT喂了45TB数据,这还是无标志数据。相当于4,000亿本书,人类目前已有的书大概在1万亿本左右,就相当于把人类在40%的文本给灌进去了。训练大概是三个阶段,第一个阶段叫做无监督学习,相当于训练一只鹦鹉,天天让它听录音机、看录像。当这个鹦鹉的条件足够好,语料足够多的时候,某一天它就会说话了,这就叫做开卷有益,多多益善。第二个阶段,它是会说话了,但是啥都说,可能骂人,说脏话,要给它立规矩,第二个阶段就叫做有监督学习,给了他很多答案,有标注语料大概是无标志语料的1%,训练后他说话就开始规矩了,但是太规矩也不行,那就变成工厂化标准答案了。又给他进行基于人类反馈的强化学习,你答的好,给你高分奖励,把奖励惩罚机制引进来了,这个时候计算机就开始学会与人类意图对齐了,逐渐就完成训练了。

4、团队。事是人做成的,openAI团队将在人类文明史中留下痕迹。最早他们团队的组成是奥特曼和马斯克基于对谷歌完成了阿尔法go的紧迫感,他们认为通用人工智能离得挺近了,如果让谷歌这种公司给开发出来,给垄断了,对人类会造成巨大的伤害。这两个人就请到了深度学习之父,图灵奖获得者辛顿,请他列个名单,30名全球顶尖的人工智能青年才俊。马斯克跟奥特曼讨论了一下,圈了10个人,10个人中9个人加盟OpenAI。这组人一开始立意就很高,为了人类的明天,为了人类能够很好的享用人工智能去开发。

这组人非常执着,有点轴劲。他们团队一开始这碰碰,那碰碰,晕头转向的时候,突然transformer算法开源了,他们全力以赴压上了。OpenAI的俄罗斯裔的首席科学家苏茨克沃很厉害,就是凭直感。Transformer有三个路径,就是编码加解码、只编码、只解码,OpenAI就把全部力量压在了只解码上。而原创公司谷歌,transformer只是它的N条路线中的一条,transform的3个路径,他条条都压,十个手指头按跳蚤,兵力分散,他就没打透。而OpenAI就是执着、专注,再一个坚信规模,苏茨克沃和奥特曼都是坚定的规模主义,就是大力出奇迹。这个模型方向对,10亿参数不行,就100亿,100亿不行就1,000亿,所以GPT-3是1,750亿参数,参数就是变量,相当于仪器的旋钮。软件工程师最重要的工作就是确定参数,一边灌一边调,调好就固定下来了,一次训练完了,这组参数就固定下来了。多大的工作量,无数个变量,他们从中间那条缝走出来了。

OpenAI有一个非常独特的股权结构,一开始OpenAI是一个非盈利公司,这是联席董事长奥特曼跟马斯克定的,运行一两年,子弹基本打光了,马斯克与奥特曼有点不合,他就退出去了。就在这个时间点上,奥特曼也许巧遇,也许有意,碰到了微软的CEO纳德拉,这是个印度人,这个人的直感也非常厉害,马上给1个亿,然后5个亿,干得好钱你不用管了,一拍即合。比尔盖茨一开始是不支持的,到去年夏天还不看好。微软进来之后OpenAI就变成一个盈利公司了,但是给的条件非常好,也非常绝。就是当财务投资收回100倍,公司重新回到非盈利机构。而且奥特曼没有股权,你说这伙人在干什么?真是不可理解。

5、微软的加持。首先100亿美金砸在谁身上,都不是个小数。微软对GPT的商业模式做了很大的赋能。微软把这个产品包装成一款市场上已经有的聊天机器人,扮猪吃老虎。如果上来讲,要做一款生成式预训练大语言模型,客户很难接受。聊天机器人不叫烂大街,反正市场很通俗,不用教育客户,只要指标非常好,非常好用,客户呼就上来了。ChatGPT出现了两个月,活跃客户过了一个亿,人类历史上用户过亿,电话用了67年,电脑用了17年。微软把整个产品链的客户给导进来了,这也是决定性的。当然微软也没做赔本买卖,投了100个亿,这一轮在股市上挣了3,000亿。

ChatGPT革命的影响。

刚才已经讲到了ChatGPT引发的这一轮生成式人工智能革命,它解决了人机交互问题,解决了人与人的交互问题,破解了人类文明的操作系统,将会引发人类智力的一场大解放,堪比电与互联网的发明,它对我们整个各行各业的影响是底层的,是能力层的。

大家回想一下,没有电的时候到有电的时候,人类的生产力是怎么变化?没有计算机的时候,到有计算机的时候,人类的生产力是怎么个变化?就可能大致能够理解这场革命对我们方方面面会有些什么影响?我们现在大致能看得出来的是与人类智力活动相关行业的变化,就是以知识的生产、传承、传播为代表的行业的变化。

比如说教育。擅长背标准答案的教育,以传承已有知识为主的教育,还能维持下去了吗?今天的教育体系是为工业文明搭建的,把人作为一个生产线上的标准件来培训的。而且面临这么大人口,公平性一致性要求,所以现代教育没办法。基础教育是按年龄,同一年龄的孩子在一起学习,在大学是把同一个分数上的人堆在一起去学习。没法针对每一个特定的年龄、特定的进度,给他特定的知识教育,以前做不到,现在有了GPT,这一点有可能了。

另外一个,你看以前孔子讲学怎么讲,就问答式,一问一答,《论语》不就是师生问答录吗?今天只要你想学啥,你就开始问,你一点点问,GPT就一点点答,学习就按需完成了。中国以前有一类最高级的私塾,就是太子塾,太子往中间一坐,左边是最好的语文老师,右边是最好的法律老师,就是几个最好的师傅来围绕着一个太子提供特定需求的知识服务,今天GPT完全做到了。

再一个医疗,以前都说最好的医生叫上医治未病,你还没病的时候,他就给你防治好。

这是一个全人类的梦想,以前实现不了。因为每个个人是千差万别的,健康状态又因时因地随时变化,怎么管理怎么治呢?今天在GPT支持下,这个梦想可能实现了。假设每一个人都建立自己的一套基于大模型的健康管理系统,我把它我完全健康的状态,基于我的遗传、基因、教育、工作、生活,最好的状态为100分,整个身体或某个器官over了打0分。原来医学是要到50分以下了,才说你有病,要来治,代价高,效果差。现在不用了,下降到90,提示关注,到80,积极干预,效果会好许多,代价会低许多。

我们下一代学点啥?具体知识已经不重要了,在价值链中边缘化了,身心健康,状态良好,具备核心能力变得非常重要

第一个能力是提问能力。将会出现一个提示力革命,今后最有价值的是提出问题能力。面对GPT,你如果问题问得很泛、很俗、很浅,他的回答也是很泛、很俗、很浅,你要问的很精准,角度独特,而且逐层深入,他也会答得丝丝入扣,入情入理,精彩纷呈。有人预测今后50%的工作将转变成提示词工程。谁问题提得好,角度独特,深入准确,而且逐层递进,将是一个最有竞争力的一个能力。

再一个是判断力。人工智能是提供了很多信息,GPT知道很多,但他有的时候对不知道的也一本正经的胡说八道,你得判断他说对不对?需要随时随地,无所不在的判断。同时GPT只能做预测,是一个最好的预测工具,但机器做不了决策,因为机器不能对结果负责任,他没有这个权利,也没有义务,人是决策者,因为只有你知道这个事情对你的损失还是收益,而且只有你能够承担损失。

最重要的有创造力。教育的最高水准,就是如何提高创造力。创造力关乎个人、家庭、行业、国家、人类的生存与发展。

还有一点不管机器多聪明,它解决不了情感问题,对人的理解、包容、爱的这种能力,这是机器解决不了的。

这几个能力将构成未来我们的培养训练最重点和最有价值的地方。

中国如何对应对这场挑战。现在看国内号称是“百模大战”,可以分成三组,第一组是这几家互联网大厂,百度、阿里、腾讯、华为等这几家,他们有可能去做真正意义的基础大模型,做基座大模型有一个基本的算力基础,要有1万片GPUA100,这是入门的门槛,有条件的大概国内就那么五六家,当然这是必要条件,不是充分条件。

另外一组高等院校科研院所,清华、复旦、哈工大,中科院自动化所等等,这一组好处是在学术上有优势,哈工大CS排名全球第一,但是只有论文排名是解决不了问题的。因为大模型的成功炼制是要求6大关键因素,人才、模型、算力、算料、场景,最后的是钱,这么6个条件都具备了,也还只是必要条件,还有巨大的偶然性。

后面的那些创业公司有些是蹭热度割韭菜的,多数是垂直应用的小模型,小模型也有价值,但是在大模型没有解决之前,基础都没有,你往上怎么长,还是有难度的。

今天中国一定要争取发挥集中力量办大事的优势,争取做出咱们的国家的大模型来。能不能发挥像我们哈工大这种人才优势,国家支持资金,地方政府给应用场景给算力,我们去做一个国家级的万亿参数大模型,这应该是可以努力的。

再一个就是要争取在一些垂直应用的产业模型,像神州光大的IT运维大模型,也是很有价值的。

我就借这个时间跟大家做一个校友分享,不对的地方,请指正。

谢谢大家!

(这是作者2023年5月28日在哈工大校友创业俱乐部导师充电会上的报告)

当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放烟雨唱扬州音乐:段银莹-烟雨唱扬州(古筝版)

返回搜狐,查看更多

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇