从siri谈人工智能技术的应用
从Siri谈人工智能技术的应用
秦元培
摘要:随着苹果iphone5的发布,其中的Siri语音助理无疑成为了其中的一大亮点。作为人工智能技术的一种现实应用,Siri实现了人机对话、信息检索、语音识别等只有在科幻电影里才出现的场景。在满足了用户对于人工智能技术的好奇心之后,各大平台仿效Siri的应用陆续放出。国内的小I机器人更是被誉为“中文语音siri”。本文将以Siri为切入点,以聊天机器人为例,讲述人工智能技术在现实生活中的应用。
关键字:人工智能技术 聊天机器人 Alice机器人 中文分词
以苹果的iphone、谷歌的Andriod和微软的windows phone,为代表的移动手机平台正在逐步改变着我们的生活方式。很多时候,人们更喜欢打开手机使用各种各样的应用(Application)来满足我们不同的需求。不久以前,iphone5发布的时候,人们惊奇地发现,iphone5拥有一个神奇的应用Siri。通过Siri,人们可以实现在科幻电影里才能看到的场景,那就是我们的手机似乎可以像人一样思考,人们可以和手机聊天、让手机帮自己做事,似乎这一切都是那么的智能、神秘。其实,Siri的背后是一门古老而又现代的技术,那就是人工智能。
人工智能的研究是从 1956 年正式开始的, 这一年在达特茅斯大学召开的会议上正式使用了“人工智能”(Artificial Intelligence,AI)这个术语。人工智能也称机器智能,它是计算机科学、控制论、信息论、神经生理学、心理学、语言学等多 种学科互相渗透而发展起来的一门综合性学科。 从计算机应用系统的角度出发,人工智能是研究如何制造智能机器或智能系统,来模拟人类智能 活动的能力,以延伸人们智能的科学。如果仅从技术的角度来看,人工智能要解决的问题是如何使电脑表现智能化,使电脑能更灵活方效地为人类服务。只要电脑能够表现出与人类相似的智能行为,就算是达到了目的,而不在乎在这过程中电脑是依靠 某种算法还是真正理解了。人工智能就是计算机科学中涉及研究、设计和应用智能机器的—个分支,人工智能的目标就是研究怎样用电脑来模仿和执行人脑的某些智力功能,并开发相关的技术产品,建立有关的理论。
人工智能技术的发展经历了漫长的过程。50年代以后,当“人工智能”的概念被第一次提出后,人工智能技术开始兴起,主要研究方向是机器定理证明等问题。在这个阶段,由于过分强调问题的解决方法,而忽略了知识的重要性,人工智能曾经一度被冷落。而60年代末到70年代初,专家系统的出现,让人工智能的研究进入新的高潮。到了80年代,随着第五代计算机的诞生,人工智能技术得到了很好的发展。在这一时期,世界上第一个聊天机器人“阿尔贝特”出现了。虽然聊天机器人并不完全等同于人工智能(其实Alice应该是问答系统中的一种),但是两者都在朝着同一个方向努力,那就是尽可能的让机器“像人一样思考”。早在1950年英国数学家艾伦·图灵在论文中提出,交谈能检验智能.如果一台计算机能像人一样对话,它就能像人一样思考.他由此获称“人工智能之父”.1995年11月23日,艾丽斯Alice诞生了。艾丽斯的名字是由英文“人工语言在线计算机实体”的头一个字母的缩写拼成。科学家华莱士将这个聊天程序安装到网络服务器,然后待在一边观察网民会对它说什么。随着华莱士对艾丽斯的升级与艾丽斯聊天经验的日渐丰富,艾丽斯越来越厉害,曾一度被认为是最聪明的聊天机器人。80年代末,神经网络技术的发展使得人工智能技术开始从单个智能主体研究转向基于网络环境下的分布式人工智能研究。不仅研究基于同一目标的分布式问题求解,而且研究多个智能主体的多目标问题求解,使人工智能更面向实用。目前,人工智能技术已经被广泛运用于模式识别、专家系统、智能搜索、定理证明、逻辑推理、博弈、信息感应与辨证处理等领域,这一崭新的技术可以说已经很常见了,但是为什么会因为Siri而备受关注呢?原因就在于Siri让我们离人工智能更近、更生活化,那么Siri究竟是不是人工智能技术呢?
Siri是一个语音助理,和Alice等聊天机器人类似,是一个可以实现和人交流程序。从技术角度来看,Alice采用一种叫做人工智能标记语言(AIML)的语言,来组织自己的语料数据。通过大量的预制模版,实现对用户问题的作答。但是,作为聊天机器人,在满足用户的好奇心时的同时,不得不面对人们的思考和质疑:难道机器人会思考?机器人有逻辑?事实上,即使最聪明的Alice,和大多数机器人一样,没有记忆,他只能对于用户此刻的问题作出回答,上下文之间并没有关联。但是大量的事实说明,凭借这样看似简单的伪智能,机器人完全可以和人顺利地完成交谈,而不被人发现自己是在和一个机器聊天。例如由英国科学家罗洛·卡潘特发明的“乔治”,据说它是世界上最聪明的“聊天机器人”,“乔治”不仅会说40种语言,并且能够同时和数百人一起进行聊天。“乔治”能够在聊天时开玩笑、回答问题、表露感情、和网民们进行关于爱情、生活和宇宙等各种话题的讨论。“乔治”说话那么逗趣、那么真实、以致于许多和它聊天的人都将它当成一个“真人”。据悉,到目前为止“乔治”已和全球大约200万人聊过天呢!假如你刚才还在对聊天机器人智能程度存在怀疑,那么现在,你是不是开始怀疑自己的判断了?那么从某种意义上来说,它展现出来的聪明与狡黠,会不会意味着——我们人类的思维和语言也许没有这么难模仿?会不会意味着——人类的语言习惯可以被总结复制,然后再将这个规律用在人类身上? 假如是这样,那么或许某一天,电影《黑客帝国》里的场景真的会出现。人类制造了机器人,机器人却叛变,与人类爆发战争。会思考的电脑控制了人脑,人类则在电脑的欺骗下生活?
了解了Alice的奥秘,我们就来说说Siri。Siri和Alice的机制基本相同,首先会根据用户输入的信息在数据库里选择匹配的内容,然后经过一定算法处理以后返回给用户。这里主要涉及以下技术:语音识别技术,负责将语音转化为文本;数据库,负责组织一定形式的数据,便于机器人提取知识;对于Siri来说,它的数据库并不在本地,而是分布式的云端,通过云计算技术(以google为代表的网页搜索技术;②以 Wolfram Alpha 为代表的知识搜索技术;③以Wikipedia 为代表的知识库技术(包括其他百科,如电影百科等);④以Yelp 为代表的问答以及推荐技术。),实现数据的整合和提取。和Alice等机器人不同的是,Siri似乎可以抛弃繁琐的语法结构,甚至思维模式也可以混乱,Siri会结合上下文结构去理解,它还会从人类语言史的角度出发,利用人工智能系统去分析,并在绝大多数情况下领会你的意思。 在这一点上,Siri显得更为智能,因为它更像人工智能而不是聊天机器人。
国内的人工智能技术研究相比较国外起步较晚,但是同样取得了很多不凡的成就。以聊天机器人为例,清华大学图书馆的虚拟服务机器人“小图”,能够为用户提供图书信息,实现虚拟化管理。此外,有国内著名软件商赢思推出的小i机器人,通过和QQ、MSN、飞信等软件商的合作,已经得到广泛的应用。在移动互联网的大潮中,小i机器人先后推出了各大平台的版本,能够为用户提供聊天、天气查询、网页搜索、翻译等类似于“Siri”的功能,因此,小i机器人被称为中文语音“Siri”。还有我们常常听到的QQ机器人、飞信机器人都属于聊天机器人。
由于中文语法的复杂、博大精深,对于中文的处理难度相对英语要大得多。英语由单词构成,彼此之间通过空格而分开。但是中文是不具备这样的特征的,因此对中文的处理无疑是一个具有挑战性的问题。对于中文聊天机器人,首先要解决语料库的问题,选择什么样的数据结构来存储数据显得身份重要。其次,要解决一个词的问题,类比国外的聊天机器人,我们有了中文分词的研究。所谓分词,就是把一个句子分割成几个具有明确意义的词汇。分词的方法目前主要有:字符串匹配分词(正向最大匹配法、逆向最大匹配法、最少切分、双向最大匹配法)、理解分词方法、统计分词算法。分词中最大的难点是歧义词和未登录词的处理。对于未登录词的处理,理论上我们可以利用机器学习技术加以消除。不仅仅是聊天机器人,中文分词对于搜索引擎、机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到中文分词。中文分词可以说是中文信息处理的基础。至此,我们应该明白了中文聊天机器人今后的方向,一个是机器学习,一个是基于云计算的云端数据挖掘,两者相互结合可以使机器人的知识库变得强大起来。此外,还需要加强机器人在上下文关联和输出控制方面的机制,这样我们的机器人才能更聪明,才能更好的为我们服务。
透过聊天机器人来谈人工智能无疑是浅显而片面的,但是依靠聊天机器人的冰山一角,我们发现,人工智能离我们的生活真的不远,甚至说我们整天都在使用人工智能。目前,人工智能的推理功能已获突破,学习及联想功能正在研究之中,下一步就是模仿人类右脑的模糊处理功能和整个大脑的并行化处理功能。人工神经网络是未来人工智能应用的新领域,未来智能计算机的构成,可能就是作为主机的冯·诺依曼 型机与作为智能外围的人工神经网络的结合。研究表明: 情感是智能的一部分,而不是与智能相分离的,因此人工智能领域的下一个突破可能在于赋予计算机情感能力。情感能力对于计算机与人的自然交往至关重要。
参考文献:
[1]田金萍《人工智能发展综述》
[2]郑南宁院士谈人工智能的研究现状《人工智能与人类生活》 上海科技报/2010 年/10 月/22 日/第 B03 版
[3]王树西、刘群、白硕《问答系统研究综述》
[4]李德毅、肖俐平《网络时代的人工智能》
[5]危辉、潘云鹤《从知识表示到表示: 人工智能认识论上的进步》
[6]梁子琳、丁润伟《基于句类模型的人机对话系统语句库设计》
[7]夏天《基于ALICE的汉语自然语言接口》
苹果的人工智能应用,跟 ChatGPT 不太一样
据悉,苹果为了扩展AppleWatch的健康宇宙,苹果拟将人工智能引入到健康功能当中。
推出一个AI健康教练,借助于AppleWatch所记录的数据,借助于算法,来制定用户的锻炼计划,改善饮食习惯和睡眠质量,以保持或者改善健康状态。
这应该是近期,AI与苹果走得最近的一则消息,但苹果的AI健康教练与当下热门的生成式AI,例如ChatGPT、bing、Bard却有着明显的不同。
「AI健康教练」更像是一个功能,而非是类似于ChatGPT这种引发全新赛道的趋势。
苹果一直没有切入到硅谷抢做生成式AI的热潮里,反而仿佛画地为牢,不参与竞争,显得颇有些不同。
Siri不是人工智能,苹果的人工智能藏在细枝末节
十二年前,苹果首次向公众展示了Siri,并随着iPhone4s一同推向市场。
后续,Siri被扩展到Mac、iPad、HomePod、AppleWatch甚至是AirPods等所有的苹果智能设备里。
Siri生来高光,被定义为「智能语音助手」,它可以通过语音识别和自然语言处理回答用户的问题,控制设备和执行任务。
也引领了智能手机标配语音助手的潮流,三星的Bixby、小米的小爱同学、OPPO的小欧等等。
同样,Siri也被大众所熟知,认为它就是人工智能的一个雏形。
只是,十二年的进化过程中,苹果很少对其进行深度升级,多是围绕着功能点补全。
如今,它依然保持着2011年的那般纯真,当遇到难题时,也同样会坦诚的回答道「我不是很清楚,这是我在互联网上找到的答案」。
在2023年生成式AI满天飞的今天,Siri的「纯真」与能说会道的ChatGPT形成了鲜明的对比。
仿佛,苹果并不想发展人工智能,只想买手机和电脑,但事实真的如此?
其实Siri并不应该称之为人工智能,Siri只是个答案数据库类型的语音助手。
当用户唤起它,并发出一连串指令,它的数据模型会优先在本体处理,快速查看是否是一个简单的本地请求(像是调整音量、设定闹钟等),利用已知的信息迅速完成。
否则,再去云端查询更大的数据库,给你一个答案,或者没有查询到,就甩出一个网页搜索(大概率的情况)。
而ChatGPT并没有先本地再云端的流程,根据问题直接访问微软的Azure云计算中心,利用庞大的算力和相应模型进行推算,无论理解与否,都会「生成出」回答。
从这里来看,Siri和ChatGPT展示了两个倾向,苹果倾向于将技术部署在本地,优先调用本地算力解决。而ChatGPT则完全依靠于网络,以及数据中心的庞大算力。
苹果的AI也是如此,它藏在苹果产品许许多多的功能里,属于那种没人会留意,但却大幅改善了用户体验。
像是你按下快门,iPhone会一连拍下多张照片,再根据相应的模型算法,利用图像识别挑选一张效果最好的作为最终成像。
又或者,ApplePencil在iPad上书写时,能够媲美真实的纸笔体验。里面就用到了笔触追踪与手掌识别,在保证笔触实时响应的同时,也不会因为手掌接触屏幕而误触。
以及,FaceID安全性与效率的兼顾,它能够适应用户面容的变化,不会因为眼镜、胡须遮挡而影响识别效率。
甚至在当下的iOS当中,也支持口罩解锁,仅用半张脸就完成了与之前相同的安全等级。
▲A15仿生芯片和A14仿生芯片的剖析图,神经计算引擎集中在左下角
从这些功能到苹果多设备、平台的协同、互联等特性,方方面面都有苹果的NeuralEngine(神经引擎)参与,也是苹果AI所呈现的方式。
与生成式AI不同,苹果AI注重的是,如何提升终端用户的体验。
Siri有没有可能变成类ChatGPT?
ChatGPT推出后不久,接入官方API的网页版套壳App也层出不穷,但真正能够嵌入系统,或者还未能落实到终端的应用、交互。
这也是此前认为ChatGPT、新bing等生成式AI还停留在古早的对话框交互当中。
真正的人机交互,或者说终端服务还未酝酿出来。
OpenAICEOSamAltman在麻省理工的演讲里曾表示,「大型模型时代已经到头了,我们需要用新的思路和方法,让AIGC取得新的进展。」
▲OpenAICEOSamAltman图片来自:wired
在揭示AIGC行业发展趋势的同时,也暗示新入局的科技公司,「你们已经落伍了」。
这对于错过AIGC第一波浪潮的苹果来说,其实也是一个契机,没必要再利用资源去训练自己的语言模型,而应当考虑,如何把生成式AI嵌入到自己的生态当中。
不重复造轮子,不如考虑造一辆车。
而「年久失修」的Siri,能否把大语言模型嫁接到Siri上,让他变成一个SmartSiri,让其成为能够控制一个AppleID下,苹果所有生态设备的一个智能管家(类似于Javis),进而带来一种全新的人机交互形式。
只是,让Siri重获新生,可能并没有预期的,把大语言模型融合进Siri原本的算法那般简单。
把Siri变成类ChatGPT,由于二者的处理方式完全不同,几乎需要重构Siri整个数据库,无异于推到再来,重新构建,可能需要重组团队,以及耗费不少资源来重新与硬件系统对接。
▲由TPUv4组成的Google机器学习中心图片来自:Google
另外,我们之前也报道过,AIGC每次询问生成,都要耗费不少的云算力。
目前OpenAI的ChatGPT几乎吃掉了微软Azure云计算中心的算力资源,甚至还有些吃紧。
苹果的云计算中心规模不大,在全球的规模远不及微软、甲骨文这些对外提供云服务业务的传统大公司。苹果云服务多是自我满足,为自己的iCloud、AppStore等业务提供支持。
倘若把AIGC一股脑的引入到iPhone、iPad、Mac当中,苹果所需要的算力将会是个天文数字。
即便苹果有算力支持,按照此前的推算,GPT-4每千个提示词的成本高达12美分,加上苹果全球仅iPhone用户就突破十亿,运行的成本极其高昂。
不论是从客观条件,还是苹果主观意愿上,苹果很难直接将类ChatGPT技术引入到Siri,并直接部署到生态当中。
苹果仍需要找一个合适的时机和切入点,这个时机可能是生成式AI的成本大降,或者说是从一个小功能入手,利用AIGC提升用户的体验。
而从苹果一贯对AI的态度来看,后者更可能是苹果的最终做法。
对于AI,苹果看重的是「效率」和「隐私」
除了时机,还有两个公司战略和策略上的不同,让苹果与生成式AI保持着冷静。
▲JohnGiannandrea图片来自:TechCrunch
2020年,苹果机器学习和人工智能战略高级副总裁JohnGiannandrea以及产品营销副总裁BobBorchers在Arstechnica关于苹果AI相关业务的采访里,他们都坚定的表达了苹果AI战略的两个要点。
一是效率,二是隐私。
效率指的是,在本地执行的机器学习算法和模型,响应更快,与性能更好。
隐私顾名思义就是隐私保护。
在这篇接近万字的采访当中,这两个关键策略,被JohnGiannandrea反复的提及,可见苹果对于AI技术有着几乎偏执而严苛的追求。
现在回头看,苹果这两个坚持,也促使苹果在造芯事业上,会把A系列、M系列AppleNeuralEngine的优先级提到CPU、GPU之前,已经成为每代芯片着重升级的核心。
有意思的是,每代苹果A系列、M系列芯片发布时,苹果会公布CPU、GPU、统一内存等一系列相关规格和架构信息。
但唯独到了NeuralEngine这里,只有一个笼统的数据,更像是一个黑盒子,仿佛神经引擎才是所有芯片里最大的秘密。
另外,这两位高管也认为苹果自iPhoneX起,芯片里就包括的神经引擎,是实现本地机内处理AI算法的一个先决条件。
为此,苹果将许多机器学习的算法尽可能缩小规模,以便部署到本地。甚至也强调,把算法模型做小,才是真本事。
部署到本地,可以能够快速的本地调用模型算法,响应无延迟。另外就是不需要上传用户数据,规避了「隐私」问题。
像是跟踪ApplePencil笔触、图像识别等AI参与的功能当中,由于算法模型训练的足够好,不需要上传云,进行协助运算,本地就能处理完成。
而类似于ChatGPT生成式AI,完全依赖于网络,即便推出了好几个月,服务仍然不够稳定,时不时的会出错。
这对苹果这种追求用户体验的公司来说,不允许有如此不稳定的状况发生。
隐私保护,已经是苹果近年以来的一则战略,尽管面对非议,并会减少相关收益,苹果依旧在iOS14.5上推出了苹果应用追踪透明度框架(App反追踪,AppTrackingTransparency,简称ATT),站在了用户这边。
苹果的一些AI模型算法不需要联网,而有些则需要收集部分数据进行训练(像是Siri),为此苹果会事先声明,并在收集过程中去除敏感信息(像是AppleID等)。
当下流行的生成式AI则与苹果谨慎的态度有些不同,他们几乎是抓取了许多互联网内容进行算法参数训练,并以此为基础生成。
而当他们推出相关产品,像是微软Copilot、Midjourney、StabilityAI,也受到了许多网站和机构的侵权法律诉讼,声称这些公司非法刮取优版权的内容进行创作,有违版权法。
▲Midjourney生成的蒙娜丽莎
虽然对于版权的争论还未有结果,但如此有非议的训练过程,其实有违于苹果对数据隐私保护的一大追求。
AIGC目前无法部署到本地,并且联网很难保证比较完美的提供服务,另外存在着数据隐私问题。
AIGC的主流技术几乎与苹果在AI追求上背道而驰,也解释了苹果没有及时切入,和对生成式AI发表相应的产品或者声明。
对于AI,我们认知的可能是Siri,但对于苹果本身来说,其实是NeuralEngine成为A系列芯片独立模块开始,苹果就把精力着重在本地化AI上,目的也很纯粹,没有想用AI改变世界,就是为了提升用户体验。
苹果并非是一个纯粹的AI公司,云数据中心仅为自己软件业务,造芯也是为了硬件,苹果技术行业的扩展都是为了产品服务,说到底他就是一家产品驱动的公司。
其战略、策略、技术布局等等都是围绕着核心产品服务。像是接下来推出的XR设备,苹果正在拓展视觉识别上的AI团队,并没有去追逐硅谷的热点。
苹果很明确自己的优劣势,没有一味的被别人牵着鼻子走,而是以一种很稳定的发展策略去布局。
另外,苹果总会在新技术新趋势下,观察许久,以自己独特的视角去切入,对于生成式AI,苹果或许也会以一种我们都没有预想的方向发展,并让我们眼界大开。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
|··返回搜狐,查看更多