语音识别如何改善电信业客服体验语音识别技术是什么主义技术

发表时间：2023-07-06 21:17:56

语音识别如何改善电信业客服体验

0分享至

近年来，电信业出现了大量AI驱动的技术，尤其是语音识别和翻译。多语种AI虚拟助手、数字人、聊天机器人、语音客服、音频转录等技术正在大幅改变电信业。企业正在呼叫中心部署AI以加快解决来电请求的速度，大幅提升客户体验、员工留存率和品牌声誉。

例如，自动语音识别（ASR），即语音转文本已被用于实时对话转录，这使企业能够迅速为客户确定资源或解决方案。语音AI还被用于分析情绪、识别分歧来源、提高合规性和坐席表现等。

本文将深入探讨语音识别在电信业的变革力量，并着重介绍AT&T、T-Mobile等行业领导者如何利用这些最先进的技术在其呼叫中心提供无与伦比的客户体验。

语音转文字对改善客户服务的影响

语音转文字技术的落地已为客服领域带来了巨大改变。通过实现呼叫路由、呼叫分类和语音认证等任务的自动化，企业可以大大缩短客户的等待时间并将其转接至最适合处理该请求的坐席。

语音识别还可以用于AI驱动的客户反馈分析，帮助改善客户满意度、产品和服务。凭借语音转文字赋能的AI应用，企业可以准确识别并及时满足客户需求。

AT&T数据科学AI助理副总裁JeremyFix在GTC23上概述了该公司使用AI改善呼叫中心体验的主要原因：

优化人员配置资源提供个性化的客户体验协作坐席提供可执行的洞察资源优化

充足的人员配置是呼叫中心的关键组成部分之一，包括吸引和维系最好的人才。AT&T通过AI预测呼叫中心坐席与来电数量的平衡情况，为坐席提供发挥其最佳水平所需的支持。

个性化

通过了解客户首次接通时的意图，AT&T可以将来电者与之前解决过类似问题并且向客户适时提供相关方案的资深坐席相匹配。

语音客服

AT&T结合呼叫转录以及自然语言处理（NLP）驱动的洞察引擎，为坐席及管理人员提供实时、可操作的洞察，帮助他们做出智能化的决策并提供高质量的客户服务（视频1）。

视频1.GTC23上的AT&T洞察引擎演示

如何能做到实时的呢？在通话过程中，AT&T的NLP引擎使用实时转录和文本挖掘技术识别讨论主题，然后推荐后续最佳行动、识别通话情绪、预测客户满意度，甚至评估坐席质量和合规性。

常见的语音转文本准确性问题

尽管语音AI可以帮助呼叫中心做出重大改进，但要成功落实语音转文本仍面临着一些挑战。T-Mobile的首席机器学习工程师HeatherNolis在GTC23期间谈到了这些挑战：

语音歧义不同的说话风格嘈杂的环境电话的局限性特定领域的词汇语音歧义

您有多少次在打电话时误解了别人的意思？比如是“上了一艘邮轮”还是“上了一艘油轮”？这种听起来相同，但含义不同的词语会造成语音歧义。如果语音转文字应用没有经过训练，无法按照上下文识别单词，就会导致转写错误。

视频2.语音歧义

不同的说话风格

每个人都会有不同的口音、方言和口腔生理结构，这意味着我们所说的每个词语听起来都会有所不同。对于全球运营的呼叫中心来说，必须在训练数据集中捕捉到这些微妙的差别，从而提高语音识别的准确性。

视频3.不同说话风格背后的原因包括生理结构差异和我们学习说话的方式

嘈杂的环境

呼叫中心坐席在与客户对话时可能受到背景噪声、同时说话的人、麦克风质量不佳，甚至手机信号不良等干扰，这些都会导致电话中的声音丢失。部署到呼叫中心的强大语音转文字应用必须能够承受这类环境。

视频4.噪声源包括背景噪声、同时说话的人和麦克风质量

电话的局限性

电话的局限性，包括无法记录“S”、“F”等某些声音会进一步阻碍语音转文字的准确性。例如，即便您在电话中听到“freeforallFriday”这句话时实际上没有听到未被电话传送的“f”这个音，但您的大脑仍会将“f”这个音补进去。而在转录过程中，就得由语音转文本模型来填补缺失的声音。

特定领域的词汇

每一座为企业创建的呼叫中心都会遇到具有不同主题和词汇的企业场景。开箱即用的ASR解决方案一般未经过有效的定制化，因此在现实中很少有用。

T-Mobile展示了他们应对语音识别问题的解决方案。该方案采用NVIDIARiva（一款用于构建和部署自定义语音应用的GPU加速SDK）并使用NVIDIANeMo（对特定领域的数据进行微调）。T-Mobile在不同口音、不同说话风格和嘈杂生产环境等干扰下，将语音识别准确率提高了3倍（图1）。

图1.T-MobileASR准确率*：从位于云端到高度定制化的Riva语音转文本（*准确率[%]=100-WER）

实现最佳语音转文字结果的首要因素

从电信呼叫中心和紧急服务到视频会议和广播，企业在部署最先进的语音AI技术时必须考虑准确度、延迟、可扩展性、安全性、运营成本等诸多因素，以便在竞争中保持领先地位。

企业正在不断寻找将呼叫中心变成价值中心的新办法，而成本在这方面起到至关重要的作用。呼叫数量多的企业必须根据定价模式、总体运营成本（TCO）和隐藏成本评估厂商。

实现全方位的语言、口音和方言覆盖对所有语言的语音识别准确性都至关重要。值得高兴的是，语音AI在多语种准确性上已经取得了很大的进步。例如，Riva现在可以为英语、西班牙语、普通话、印地语、俄语、阿拉伯语、日语、韩语、德语、葡萄牙语、法语和意大利语提供全球领先的语音识别。

最后，语音AI模型必须实现低延迟才能为坐席和客户提供更好的实时体验。如果在坐席与客户对话的过程中，AI无法足够快地向坐席提供有关后续行动的建议，那就会变得毫无用处。

T-Mobile详细介绍了他们的语音转文本评估流程，展示了一项重要的发现——Riva语音识别在延迟、成本效益和准确性方面均优于当前的云供应商模型。

视频5.T-Mobile的语音转文本评估指标：延迟、成本效益和准确性

在GTC23专题讨论会“使用先进的语音AI技术引领潮流”上，Infosys、Quantiphi和摩托罗拉分享了他们通过在电信解决方案中部署语音AI解决这些问题的经验。

要点总结

将语音和翻译AI集成到客服AI解决方案中正在给电信行业带来变革。通过使用客户会话的实时多语种转录，电信公司可以更好地对来电进行分类和转接，并向坐席提供有价值的洞察和个性化的建议。

拥抱这项技术的电信公司可凭借提供卓越的客户体验、在竞争中保持领先并满足客户不断变化的需求，从而获得在市场中的竞争优势。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.

/阅读下一篇/返回网易首页下载网易新闻客户端

语音识别如何改善电信业客服体验 语音识别技术是什么主义技术

语音识别如何改善电信业客服体验

语音识别如何改善电信业客服体验语音识别技术是什么主义技术