苹果被曝正测试生成式人工智能,前工程师称Siri“没前途”
在微软、谷歌纷纷加码人工智能之际,苹果也试图追上步伐,防止掉队。当地3月15日,《纽约时报》报道称,苹果公司正在测试生成式人工智能(generativeAI),希望这些技术有朝一日可以用于苹果的虚拟助手Siri上,尽管Siri的设计方式存在一些根本性的问题。报道称,在2月举行的苹果年度人工智能峰会上,员工们了解了苹果的大型语言模型和其他人工智能工具。苹果工程师,包括“Siri”团队的成员,“每周”都在测试语言生成概念,以应对ChatGPT等聊天机器人的崛起。此前,彭博社记者马克·古尔曼(MarkGurman)透露,在人工智能峰会上,苹果讨论了机器学习相关问题以及公司内部的人工智能进展。苹果的人工智能负责人表示,“机器学习的速度比以往任何时候都要快,我们的人才正走在最前沿。”尽管苹果高管做出了这样的评价,但古尔曼仍然认为,这场峰会没有为消费者带来任何可能“改变游戏规则”的事情。《纽约时报》指出,这些下一代人工智能技术凸显了“Siri”、“Alexa”(亚马逊语音助手)和其他语音助手如何在人工智能竞赛中浪费了他们的领先地位。尤其是Siri,要实现有意义的改进,还面临着多重障碍。苹果公司前工程师约翰·伯基曾参与过Siri项目,并于2014年负责对其进行改进。他在接受《纽约时报》采访时解释说,这款语音助手是建立在“需要数周时间才能更新基本功能的笨拙代码上”。Siri发布于2011年,即便经过数次改进,相比眼下“全能”的ChatGPT和微软Bing,Siri早已褪下当初的光环,功能鸡肋,甚至沦为脱口秀中的段子。据了解,Siri本质上是命令-控制系统,“笨重的设计”使得工程师们很难添加新的功能。例如,“Siri”的数据库包含了近24种语言的大量短语列表,使之成为“一个大雪球”。如果有人想在Siri的数据库中添加一个词,伯基补充说,“它会被放在一大堆里。”这意味着像向集中添加新短语,这样简单更新都需要重建整个Siri数据库,这可能需要长达六周的时间。添加更复杂的功能,比如新的搜索工具,可能需要一整年的时间。博基认为,“Siri”不可能成为像ChatGPT那样的“创意助手”。就在3月14日,OpenAI推出了“深度学习的最新里程碑”GPT-4。据介绍,这是一款大型多模态模型,与ChatGPT所用的模型GPT-3.5相比,它的文本处理量扩大至2.5万个单词,还增加了图片处理功能。OpenAI介绍,GPT-4在专业和学术方面表现出近似于人类的水平。例如,它在模拟律师考试中的得分能够排进前10%左右,相比之下,GPT-3.5的得分只能排在倒数10%左右。责任编辑:张迪
苹果揭秘Siri的秘密 怪不得这么好用
原标题:苹果揭秘Siri的秘密怪不得这么好用
苹果公司的跨平台Siri虚拟助手在全球有着超过5亿用户,显然,语音识别是苹果感兴趣的重要领域之一。
上周,苹果公司发表了一系列预印本研究论文,就如何改进语音触发检测和说话人验证,以及多说话人的语言识别技术进行了研究。
扬声器验证和语音触发检测
在第一篇论文中,一组苹果研究人员提出了一个训练过的人工智能模型,这个模型既能执行自动语音识别任务,也能执行说话人识别任务。
正如他们在摘要中所解释的,语音助手识别的命令通常以触发短语(例如,“嘿,Siri”)为前缀,检测这个触发短语涉及两个步骤。
首先,人工智能必须判断输入音频中的语音内容是否与触发短语的语音内容相匹配(语音触发检测);其次,人工智能必须判断说话者的语音是否与注册用户或用户的语音相匹配(语音验证)。
通常情况下,这两项任务都是被独立考虑的。但有合著者假设,对语音发起者的了解可能有助于推断出声音信号中的语音内容,反之亦然,这将有助于对这两种属性进行评估。
对此,研究人员设计了三套能够学习语音和说话人信息的模型,并对一组数据进行训练,这些数据包含超过16000小时的带注释的样本,其中5000小时的音频有语音标签(其余的为说话人标签)。
不仅如此,还有超过100名受试者使用智能扬声器设备在一系列声学设置中为语料库做出贡献,包括安静的房间、来自房间内电视或厨房设备的外部噪音,以及录音机以大音量播放音乐。
值得一提的是,来自电视、广播和播客的2000小时不包含触发短语的连续音频记录也被添加进来,以此来测量“误报”率。
这些模型显示出了学习语音和说话人信息的能力,同时在相同数量的参数下(雷锋网按,控制训练过程某些属性的变量),每个任务的准确性至少与基线模型相同。
事实上,在提出的三种模型中,有一种在“多重”设置下的表现优于说话者验证基线,在文本无关的任务中相对于基线提高了7.6%。
研究人员认为,这样的实验结果是十分有趣的,因为这些模型是使用不相关的数据集训练的,也就是说,每个音频样本要么有语音标签,要么有说话人标签,从来没有两者都有。
通过对结果的观察,研究人员提出了一种灵活的设计,通过连接不同的任务的训练数据,而不是为每个训练示例获取多个标签,从而在多个相关任务上训练模型。从实用的角度来看,这样能够在两个任务之间共享计算可以节省设备内存、计算时间或延迟,以及消耗的电量/电池。
错误触发缓解
在研究中,有一项补充研究减少了错误触发的发生,也就是说,语音助手有意地忽略了像Siri这样的语音助手的语音。
研究人员表示,他们使用了图形神经网络(GNN),这是一种操作在图形结构上的人工智能模型,其中每个节点都与一个标签相关联,目标是在没有基础事实的情况下预测节点的标签。
在论文中,研究人员写道:
语音触发的智能助手通常在开始监听用户请求之前就会检测到一个触发短语……错误的触发通常来自于背景噪音或听起来类似于触发短语的语音。因此,减少误触发是构建以隐私为中心的非侵入性智能助手的一个重要方面。
在未来的工作中,该团队计划将基于GNN的处理扩展到其他任务,例如用户意图分类。
多语种说话人识别
在另一篇论文中,苹果研究人员探索了一种针对多语言使用者量身定制的说话人语言识别系统。
他们表示,语音识别系统对大多数语言都有很高的准确性。但是,当有多重语言出现时,这个语言识别系统的表现就不尽如人意了。因此,基于这样的实施情况,研究人员决定开展说话人语言识别系统的工作。
值得注意的是,《华盛顿邮报》近期委托进行的一项研究显示,谷歌和亚马逊生产的受欢迎的智能音箱听懂本土用户的语音比听懂非美式口音的概率高出了30%。
同时,像Switchboard这样的语料库也已经被证明对来自国内特定地区的使用者存在可测量的倾斜,这个语料库还是被IBM和微软等公司用来衡量语音模型错误率的数据集。
针对这种情况,合著者将有关使用模式的知识整合到一个听写系统中,该系统能够为来自60多个地区的演讲者做出决策。
其中,声学子模型将根据语音信号所传递的证据进行预测,而上下文感知预测组件则考虑了各种交互上下文信号,通过这两方面的预测,来选择最优的单语自动语音识别系统。
据了解,上下文信号包含了有关发出听写请求的条件的信息,包括有关已安装的听写区域、当前选择的听写区域以及用户在发出请求之前是否切换了听写区域的信息。
重要的是,它们有助于在语音信号太短的情况下,依靠声学模型产生一个可靠的预测。比如说,如果用户同时安装了英语和德语,像“naIn ”这样的短而模糊的语句,在德语中可能是否定的“nein”,在英语中则是数字“nine”。
另外,为了评估该系统,研究人员还开发了一种自定义指标,称为“平均用户准确度”(雷锋网按,AUA,AverageUserAccuracy),他们认为这种指标能更好地反映模型中的“人口水平”使用模式。
苹果的人工智能应用,跟ChatGPT不太一样
苹果的人工智能应用,跟ChatGPT不太一样来源:爱范儿2023-05-0210:10:26苹果的XR混合现实设备,其中一个主要的功能便是围绕着健身Fitness+服务展开。
它会借助虚拟空间,让你在任何地点沉浸在「健身房」当中,当然,还少不了一个虚拟教练。
此前,我们只认为这位「虚拟教练」可能只提供标准的动作示范,但在苹果的计划里,「他」可能还会被赋予更多的「智慧」。
据悉,苹果为了扩展AppleWatch的健康宇宙,苹果拟将人工智能引入到健康功能当中。
推出一个AI健康教练,借助于AppleWatch所记录的数据,借助于算法,来制定用户的锻炼计划,改善饮食习惯和睡眠质量,以保持或者改善健康状态。
这应该是近期,AI与苹果走得最近的一则消息,但苹果的AI健康教练与当下热门的生成式AI,例如ChatGPT、bing、Bard却有着明显的不同。
「AI健康教练」更像是一个功能,而非是类似于ChatGPT这种引发全新赛道的趋势。
苹果一直没有切入到硅谷抢做生成式AI的热潮里,反而仿佛画地为牢,不参与竞争,显得颇有些不同。
Siri不是人工智能,苹果的人工智能藏在细枝末节
十二年前,苹果首次向公众展示了Siri,并随着iPhone4s一同推向市场。
后续,Siri被扩展到Mac、iPad、HomePod、AppleWatch甚至是AirPods等所有的苹果智能设备里。
Siri生来高光,被定义为「智能语音助手」,它可以通过语音识别和自然语言处理回答用户的问题,控制设备和执行任务。
也引领了智能手机标配语音助手的潮流,三星的Bixby、小米的小爱同学、OPPO的小欧等等。
同样,Siri也被大众所熟知,认为它就是人工智能的一个雏形。
只是,十二年的进化过程中,苹果很少对其进行深度升级,多是围绕着功能点补全。
如今,它依然保持着2011年的那般纯真,当遇到难题时,也同样会坦诚的回答道「我不是很清楚,这是我在互联网上找到的答案」。
在2023年生成式AI满天飞的今天,Siri的「纯真」与能说会道的ChatGPT形成了鲜明的对比。
仿佛,苹果并不想发展人工智能,只想卖手机和电脑,但事实真的如此?
其实Siri并不应该称之为人工智能,Siri只是个答案数据库类型的语音助手。
当用户唤起它,并发出一连串指令,它的数据模型会优先在本体处理,快速查看是否是一个简单的本地请求(像是调整音量、设定闹钟等),利用已知的信息迅速完成。
否则,再去云端查询更大的数据库,给你一个答案,或者没有查询到,就甩出一个网页搜索(大概率的情况)。
而ChatGPT并没有先本地再云端的流程,根据问题直接访问微软的Azure云计算中心,利用庞大的算力和相应模型进行推算,无论理解与否,都会「生成出」回答。
从这里来看,Siri和ChatGPT展示了两个倾向,苹果倾向于将技术部署在本地,优先调用本地算力解决。而ChatGPT则完全依靠于网络,以及数据中心的庞大算力。
苹果的AI也是如此,它藏在苹果产品许许多多的功能里,属于那种没人会留意,但却大幅改善了用户体验。
像是你按下快门,iPhone会一连拍下多张照片,再根据相应的模型算法,利用图像识别挑选一张效果最好的作为最终成像。
又或者,ApplePencil在iPad上书写时,能够媲美真实的纸笔体验。里面就用到了笔触追踪与手掌识别,在保证笔触实时响应的同时,也不会因为手掌接触屏幕而误触。
以及,FaceID安全性与效率的兼顾,它能够适应用户面容的变化,不会因为眼镜、胡须遮挡而影响识别效率。
甚至在当下的iOS当中,也支持口罩解锁,仅用半张脸就完成了与之前相同的安全等级。
从这些功能到苹果多设备、平台的协同、互联等特性,方方面面都有苹果的NeuralEngine(神经引擎)参与,也是苹果AI所呈现的方式。
与生成式AI不同,苹果AI注重的是,如何提升终端用户的体验。
Siri有没有可能变成类ChatGPT?
ChatGPT推出后不久,接入官方API的网页版套壳App也层出不穷,但真正能够嵌入系统,或者还未能落实到终端的应用、交互。
这也是此前认为ChatGPT、新bing等生成式AI还停留在古早的对话框交互当中。
真正的人机交互,或者说终端服务还未酝酿出来。
OpenAICEOSamAltman在麻省理工的演讲里曾表示,「大型模型时代已经到头了,我们需要用新的思路和方法,让AIGC取得新的进展。」
在揭示AIGC行业发展趋势的同时,也暗示新入局的科技公司,「你们已经落伍了」。
这对于错过AIGC第一波浪潮的苹果来说,其实也是一个契机,没必要再利用资源去训练自己的语言模型,而应当考虑,如何把生成式AI嵌入到自己的生态当中。
不重复造轮子,不如考虑造一辆车。
而「年久失修」的Siri,能否把大语言模型嫁接到Siri上,让他变成一个SmartSiri,让其成为能够控制一个AppleID下,苹果所有生态设备的一个智能管家(类似于Javis),进而带来一种全新的人机交互形式。只是,让Siri重获新生,可能并没有预期的,把大语言模型融合进Siri原本的算法那般简单。
把Siri变成类ChatGPT,由于二者的处理方式完全不同,几乎需要重构Siri整个数据库,无异于推到再来,重新构建,可能需要重组团队,以及耗费不少资源来重新与硬件系统对接。
另外,我们之前也报道过,AIGC每次询问生成,都要耗费不少的云算力。
目前OpenAI的ChatGPT几乎吃掉了微软Azure云计算中心的算力资源,甚至还有些吃紧。
苹果的云计算中心规模不大,在全球的规模远不及微软、甲骨文这些对外提供云服务业务的传统大公司。苹果云服务多是自我满足,为自己的iCloud、AppStore等业务提供支持。
倘若把AIGC一股脑的引入到iPhone、iPad、Mac当中,苹果所需要的算力将会是个天文数字。
即便苹果有算力支持,按照此前的推算,GPT-4每千个提示词的成本高达12美分,加上苹果全球仅iPhone用户就突破十亿,运行的成本极其高昂。
不论是从客观条件,还是苹果主观意愿上,苹果很难直接将类ChatGPT技术引入到Siri,并直接部署到生态当中。
苹果仍需要找一个合适的时机和切入点,这个时机可能是生成式AI的成本大降,或者说是从一个小功能入手,利用AIGC提升用户的体验。
而从苹果一贯对AI的态度来看,后者更可能是苹果的最终做法。
对于AI,苹果看重的是「效率」和「隐私」
除了时机,还有两个公司战略和策略上的不同,让苹果与生成式AI保持着冷静。
2020年,苹果机器学习和人工智能战略高级副总裁JohnGiannandrea以及产品营销副总裁BobBorchers在Arstechnica关于苹果AI相关业务的采访里,他们都坚定的表达了苹果AI战略的两个要点。
一是效率,二是隐私。
效率指的是,在本地执行的机器学习算法和模型,响应更快,与性能更好。
隐私顾名思义就是隐私保护。
在这篇接近万字的采访当中,这两个关键策略,被JohnGiannandrea反复的提及,可见苹果对于AI技术有着几乎偏执而严苛的追求。
现在回头看,苹果这两个坚持,也促使苹果在造芯事业上,会把A系列、M系列AppleNeuralEngine的优先级提到CPU、GPU之前,已经成为每代芯片着重升级的核心。
有意思的是,每代苹果A系列、M系列芯片发布时,苹果会公布CPU、GPU、统一内存等一系列相关规格和架构信息。
但唯独到了NeuralEngine这里,只有一个笼统的数据,更像是一个黑盒子,仿佛神经引擎才是所有芯片里最大的秘密。
另外,这两位高管也认为苹果自iPhoneX起,芯片里就包括的神经引擎,是实现本地机内处理AI算法的一个先决条件。
为此,苹果将许多机器学习的算法尽可能缩小规模,以便部署到本地。甚至也强调,把算法模型做小,才是真本事。
部署到本地,可以能够快速的本地调用模型算法,响应无延迟。另外就是不需要上传用户数据,规避了「隐私」问题。
像是跟踪ApplePencil笔触、图像识别等AI参与的功能当中,由于算法模型训练的足够好,不需要上传云,进行协助运算,本地就能处理完成。
而类似于ChatGPT生成式AI,完全依赖于网络,即便推出了好几个月,服务仍然不够稳定,时不时的会出错。
这对苹果这种追求用户体验的公司来说,不允许有如此不稳定的状况发生。
隐私保护,已经是苹果近年以来的一则战略,尽管面对非议,并会减少相关收益,苹果依旧在iOS14.5上推出了苹果应用追踪透明度框架(App反追踪,AppTrackingTransparency,简称ATT),站在了用户这边。
苹果的一些AI模型算法不需要联网,而有些则需要收集部分数据进行训练(像是Siri),为此苹果会事先声明,并在收集过程中去除敏感信息(像是AppleID等)。
当下流行的生成式AI则与苹果谨慎的态度有些不同,他们几乎是抓取了许多互联网内容进行算法参数训练,并以此为基础生成。
而当他们推出相关产品,像是微软Copilot、Midjourney、StabilityAI,也受到了许多网站和机构的侵权法律诉讼,声称这些公司非法刮取优版权的内容进行创作,有违版权法。
虽然对于版权的争论还未有结果,但如此有非议的训练过程,其实有违于苹果对数据隐私保护的一大追求。
AIGC目前无法部署到本地,并且联网很难保证比较完美的提供服务,另外存在着数据隐私问题。
AIGC的主流技术几乎与苹果在AI追求上背道而驰,也解释了苹果没有及时切入,和对生成式AI发表相应的产品或者声明。
对于AI,我们认知的可能是Siri,但对于苹果本身来说,其实是NeuralEngine成为A系列芯片独立模块开始,苹果就把精力着重在本地化AI上,目的也很纯粹,没有想用AI改变世界,就是为了提升用户体验。
苹果并非是一个纯粹的AI公司,云数据中心仅为自己软件业务,造芯也是为了硬件,苹果技术行业的扩展都是为了产品服务,说到底他就是一家产品驱动的公司。
其战略、策略、技术布局等等都是围绕着核心产品服务。像是接下来推出的XR设备,苹果正在拓展视觉识别上的AI团队,并没有去追逐硅谷的热点。
苹果很明确自己的优劣势,没有一味的被别人牵着鼻子走,而是以一种很稳定的发展策略去布局。
另外,苹果总会在新技术新趋势下,观察许久,以自己独特的视角去切入,对于生成式AI,苹果或许也会以一种我们都没有预想的方向发展,并让我们眼界大开。
责任编辑:徐宇泽标签:苹果人工智能AIChatGPT