ADL124《智能语音交互技术》开始报名
CCF学科前沿讲习班
TheCCFAdvancedDisciplinesLectures
CCFADL第124期
主题智能语音交互技术
2021年12月3-5日北京线上线下同时举办
本期CCF学科前沿讲习班《智能语音交互技术》,分别对语音识别、语音合成、语音前端处理、口语对话上技术最新研究进展进行系统性梳理,帮助学员理解智能语音交互方面的基本概念、主要挑战和解决方法,掌握该领域的一系列前沿技术,并通过实际案例了解语音的应用前景,开阔科研视野,增强实践能力。
本期ADL讲习班邀请到了本领域9位来自于著名高校与企业科研机构的重量级专家学者做主题报告。他们将对智能语音交互方面的最新进展进行深入浅出的讲解,为听众展示在语音领域的实践案例,并介绍如何解决并行训练效率的挑战,如何部署模型等解决语音落地问题的宝贵经验。
学术主任:谢磊西北工业大学教授
主办单位:中国计算机学会
承办单位:OPPO广东移动通信有限公司
活动日程:
2021年12月3日
9:00-9:15
开班仪式
9:15-9:30
全体合影
9:30-11:30
语音识别讲座1:端到端语音识别的进展
李锦宇,美国微软公司的Partner应用科学家和技术主管
11:30-13:00
午餐
13:00-15:00
语音识别讲座2:数据高效的多语言与跨语言语音识别
欧智坚,清华大学电子工程系副教授
15:00-15:15
休息
15:15-17:15
语音识别讲座3:统计语音识别中的鲁棒性问题和自适应研究
钱彦旻,上海交通大学计算机科学与工程系副教授,上海交通大学-思必驰联合实验室副主任
2021年12月4日
9:30-11:30
语音合成讲座1:语音合成技术综述:基础与前沿
吴志勇,清华大学深圳国际研究生院副研究员
11:30-13:00
午餐
13:00-15:00
语音合成讲座2:基于深度学习的话者转换
凌震华,中国科学技术大学信息学院教授
15:00-15:15
休息
15:15-17:15
语音前端讲座1:面向多人交互场景的语音预处理技术
杜俊,中国科学技术大学语音及语言信息处理国家工程实验室副教授
2021年12月5日
9:30-11:30
语音前端讲座2:语音前端处理技术和应用
付强,阿里巴巴达摩院研究员
11:30-13:00
午餐
13:00-15:00
对话交互讲座1:多模态多轮对话技术的最新进展及应用
吴友政,京东科技高级总监,语音语言算法部负责人
15:00-15:15
休息
15:15-17:15
对话交互讲座2:面向亿级用户的小布助手对话式AI算法系统实践与思考
杨振宇,OPPO小布智能中心-NLP与对话算法负责人
17:15-17:30
小结
特邀讲者:
李锦宇美国微软公司
讲者简介:李锦宇,佐治亚理工大学博士,现任美国微软公司的Partner应用科学家和技术主管。他带领一个团队设计和改进语音建模算法和技术,以确保微软的语音识别产品具有世界领先水平。他的主要研究兴趣涵盖语音识别的多个主题,包括端到端建模、深度学习、噪声鲁棒性等。他是《RobustAutomaticSpeechRecognition--ABridgetoPracticalApplications》一书的第一作者。自2017年起担任IEEE语音和语言处理技术委员会成员。2015年至2020年,他还担任IEEE/ACMTransactionsonAudio,SpeechandLanguageProcessing的副主编。报告题目:端到端语音识别的进展报告摘要:语音识别的最新动向是从混合模型语音识别转换为端到端(E2E)语音识别。尽管E2E模型在大多数标准数据库测试中都达到了最好的结果,但目前仍有许多的商业语音识别系统使用混合模型。这是因为很多实际因素会影响产品模型的部署决策。传统混合模型几十年来一直针对产品应用进行优化,一般来说它们通常能够在这些因素上有很好的表现。如果不针对这些因素提供出色的解决方案,E2E模型很难大规模商业化。在本次报告中,我将从工业界的角度来概述E2E模型的最新进展,以及解决这些挑战的技术。
欧智坚清华大学
讲者简介:欧智坚,清华大学电子工程系副教授、博士生导师,研究方向是语音识别与对话、机器智能(特别是概率图模型理论及应用)。担任IEEE音频语音语言期刊(TASLP)编委,IEEE语音语言技术委员会(SLTC)委员,IEEE言语技术(SLT)2021大会主席,APSIPA机器学习与数据分析技术委员会(MLDA)委员,中国计算机学会(CCF)高级会员及语音对话与听觉专业组委员,全国人机语音通讯会议常设机构委员会委员,以及多个国际会议组委会成员、多个国际会议、学术期刊和国家级项目评审人。作为负责人多次承担自然科学基金、科技部、教育部等国家项目并多次赢得技术评测,与Intel、IBM、Panasonic、Toshiba、Apple等合作研发。在TPAMI/TASLP/ICLR/UAI/AAAI/ICASSP/ACL/电子学报等重要学术期刊和会议发表论文近百篇。获得省部级科技奖2项,2005年全国人机语音通信会议优秀论文,指导获得2018清华大学优秀博士论文、2018中文言语处理国际会议最佳学生论文奖。
报告题目:数据高效的多语言与跨语言语音识别
报告摘要:世界上共有7099个语种和141个不同的语系,将语音识别技术拓展到多语言与跨语言场景,面临新的挑战。多语言语音识别,汇聚多语言的语音数据来训练一个多语言模型,并在零样本或小样本下对新语言进行跨语言语音识别,在一定程度上缓解当前语音识别技术对大量标注的依赖。成功的多语言与跨语言语音识别的关键是,提升多语言训练中的信息共享并最大限度地将知识从充分训练的多语言模型迁移到新语言的模型,以此促进样本高效,实现在标注样本量不变的条件下提升系统性能。本报告将围绕此中心思想,系统地介绍相关技术。首先,我们将简述概率图模型理论,并在其框架下介绍语音识别模型和算法的基础知识,我们将分离神经网络架构和概率模型定义,以建立对现有技术的灵活认识。然后,重点介绍多语言与跨语言语音识别技术,包括声学单元选择,音韵学发音特征,模型构建,多语言信息共享的方式,迁移学习等。最后,指出开放性问题及若干探索,如神经架构搜索等最新技术。
钱彦旻上海交通大学
讲者简介:钱彦旻上海交通大学计算机科学与工程系副教授,博士生导师。清华大学博士,英国剑桥大学工程系博士后。国家优秀青年基金、上海市青年英才扬帆计划、吴文俊人工智能自然科学奖一等奖(第一完成人)获得者。现为IEEE高级会员、ISCA会员,同时也是国际开源项目Kaldi语音识别工具包的13位创始成员之一。有10余年从事智能语音及语言处理、人机交互和机器学习的研究和产业化工作经验。在本领域的一流国际期刊和会议上发表学术论文150余篇,GoogleScholar引用总数8000余次,申请60余项中美专利,合作撰写和翻译多本外文书籍。3次获得领域内国际权威期刊和会议的最优论文奖,3次带队获得国际评测冠军。作为负责人和主要参与者参加了包括国家自然科学基金、国家重点研发计划、国防JKW、国家863、英国EPSRC等多个项目。2020年和2014年,因在智能语音处理技术理论创新与产业化应用方面的贡献,获得中国人工智能学会颁发的“吴文俊人工智能科学技术奖”自然科学奖一等奖和科技进步奖二等奖。目前的研究领域包括:语音识别,说话人和语种识别,语音抗噪与分离,语音情感感知,自然语言理解,深度学习建模,多媒体信号处理等。
报告题目:统计语音识别中的鲁棒性问题和自适应研究
报告摘要:近年来,随着深度学习的进步,语音识别技术得到了飞速地发展,并已经在很多场景下商业化落地。然而,即使是使用最先进的技术,语音识别系统依然面临鲁棒性问题。目前大部分语音识别系统在面对高噪声,强混响,失配信道,重口音等环境时,系统性能和识别精度极具下降。为此探索语音识别系统的鲁棒性问题非常重要,也极具挑战。本报告将介绍统计语音识别中鲁棒性的问题根源,以及相关处理方法,并对克服鲁棒性问题的重要方法自适应技术做相关的研究介绍。
吴志勇清华大学深圳国际研究生院
讲者简介:吴志勇,清华大学深圳国际研究生院副研究员,博士生导师。清华大学-香港中文大学媒体科学、技术与系统联合研究中心副主任。研究兴趣为面向人工智能的智能言语交互技术,包括:智能语音交互、情感计算、表现力可视语音合成、自然语言理解与生成、音视双模态联合建模,机器学习等。发表学术期刊及会议论文100余篇。中国计算机学会语音对话与听觉专业委员会委员,全国人机语音通讯学术会议常设机构委员。承担国家自然科学基金、香港特区政府研究资助局基金、国家社会科学基金等多项课题。获2009及2016年度教育部科学技术进步奖。指导的学生多人次获得优秀学位论文、国家奖学金、优秀毕业生。
报告题目:语音合成技术综述:基础与前沿
报告摘要:语音合成又称文语转换,旨在将输入文本转换为高可懂度、高自然度、高表现力的输出语音,是实现智能人机语音交互的关键技术,受到学术界和工业界的广泛关注。传统的基于拼接式、统计参数合成等方法,虽然实现了较好的语音合成效果,但其建模能力限制了语音合成性能的进一步提升。近年来,随着深度学习技术的发展,基于深度神经网络的语音合成极大地提高了合成语音的音质和自然度,并在表现力、个性化语音合成方面取得了长足的进步。本次报告将对语音合成技术的基础以及最新的前沿研究热点进行介绍,并对未来的研究方向进行展望。
凌震华中国科学技术大学
讲者简介:凌震华,中国科学技术大学信息学院教授,博士生导师。主要研究领域包括语音信号处理和自然语言处理。主持与参与多项国家自然科学基金、国家重点研发计划、安徽省语音专项等科研项目,已发表论文200余篇,论文累计引用5500余次,获国家科技进步奖二等奖和IEEE信号处理学会最佳青年作者论文奖。在BlizzardChallenge国际语音合成技术评测、VoiceConversionChallenge国际语音转换技术评测等活动中多次获得测试指标第一名。现为电气电子工程师学会(IEEE)高级会员、中国计算机学会语音听觉与对话专业组委员、全国人机语音通讯学术会议常设机构委员会委员。2014-2018年任IEEE/ACMTASLP期刊副编辑。
报告题目:基于深度学习的话者转换
报告摘要:话者转换(VoiceConversion)指的是在不改变文本内容的前提下修改源话者语音,使其个性特征接近目标话者。近年来,深度学习方法在话者转换任务中得到了成功应用,显著提升了转换后语音的自然度以及与目标话者的相似度。本报告将首先简要回顾话者转换的定义、任务分类与研究历史,然后介绍深度学习技术在话者转换声学模型、声码器等不同模块中的应用方法。进一步,报告将介绍非平行数据、跨语种等非理想场景下的话者转换技术的前沿研究进展,并结合近两届的VoiceConversionChallenge国际话者转换评测活动讨论话者转换的当前技术状态与未来发展趋势。
杜俊中国科学技术大学
讲者简介:杜俊,中国科学技术大学语音及语言信息处理国家工程实验室副教授,2009年-2013年就职于科大讯飞研究院和微软亚洲研究院,期间主导开发了语音识别、手写识别和OCR多个产品。研究方向是语音信号处理和模式识别应用,已发表论文200余篇,谷歌学术引用4600余次,ESI高被引论文2篇,以唯一通讯作者发表的IEEE-ACMTASLP期刊论文获得2018年IEEE信号处理学会最佳论文奖,2019年获安徽省科技进步一等奖。目前是IEEE高级会员,并担任语音领域顶级期刊IEEE-ACMTASLP的编委、IEEE信号处理学会语音及语言处理技术委员会(SLTC)委员、亚太信号与信息处理协会(APSIPA)语音语言音频分会(SLA)技术委员会的秘书长以及APSIPADistinguishedLecturer。带领团队参加语音和图文领域国际评测获得20多项冠军。
报告题目:面向多人交互场景的语音预处理技术
报告摘要:随着应用场景的日益复杂,如多人交互的家居和会议场景下,同时存在口音方言、环境噪声、房间混响、人声重叠多个影响因素,很多语音应用(如语音识别)的环境鲁棒性和说话人鲁棒性都远未达到实用门槛,因此语音预处理技术(如语音增强、语音分离、语音去混响和说话人日志等)的发展至关重要。本报告将回顾过年20年间,在深度学习、大数据和云计算技术的快速发展下,语音预处理技术的研究如何从简单场景逐步转换到多人交互复杂场景,并且结合语音领域经典的“鸡尾酒会问题”,和大家共同探讨未来的发展趋势。
付强阿里巴巴达摩院机器智能技术语音实验室
讲者简介:付强博士,现任阿里巴巴达摩院机器智能技术语音实验室研究员、曾任中科院声学所研究员,北京先声互联科技有限公司(被阿里巴巴集团收购)创始人。长期从事声学和语音信号处理方面的科研和产业化工作,主持和参与包括国家自然科技基金、国家和省部委在内的几十项科研课题,其成果广泛应用于不同种类的消费级智能硬件和公共安全等多个领域,在包括IEEETran.,ICASSP等领域顶级学术刊物及会议上发表论文100余篇,已授权发明专利约50项,主持制订1项终端语音识别相关国家标准。曾获余杭工匠(2020)和中国科学院杰出科技成就奖(2014)。
报告题目:语音前端处理技术和应用
报告摘要:语音前端处理技术是人——机语音交互和人——人语音通话系统的重要组成部分。所谓前端,指的是诸如PC、平板电脑、手机、各种带语音功能的嵌入式和IOT设备。相对于部署在云上的后端系统来说,语音前端处理具有低资源、高实时、设备类型多样化、声学环境错综复杂等特点。本报告从实际应用的角度出发,向大家介绍语音前端处理中的常用技术,例如波束形成、盲源分离、回声消除、去混响、声音活动性检测、关键词检测、数据模拟。在和大家一起回顾这些算法背后的经典信号处理理论和数学原理的同时侧重于介绍在小资源、高实时系统上的求解思路,例如利用凸优化理论求解波束形成、共轭对称矩阵求逆、IQRD-RLS算法、在线隐马尔可夫模型等。同时还向大家介绍了阿里巴巴达摩院机器智能技术近几年在语音前端处理上的一些进展,包括基于盲源分离的信号处理统一框架、语音增强和关键词检测联合优化等工作。
吴友政京东科技
讲者简介:吴友政,京东科技语音语言算法部负责人、高级总监。博士毕业于中国科学院自动化研究所,毕业后在日本情报通信研究机构(NICT)、英国爱丁堡大学、索尼中国研究院和爱奇艺负责自然语言处理、语音识别、机器翻译等前沿技术研究和产品研发工作,在国际自然语言处理领域顶会和期刊上发表多篇学术论文(如ACL、EMNLP、AAAI、IJCAI、ICASSP等)。曾获得语音识别(IWSLT2012、IWSLT2013)和对话式机器阅读理解(QuAC2020)比赛的冠军。主办京东人机对话挑战赛JDDC2019和2020吸引了上千支队伍参赛。技术产品化上,带领团队打造了基于多轮对话技术的智能客服平台言犀、基于多模态内容生成技术的品创等产品。曾获得京东集团技术金牛奖等荣誉。
报告题目:多模态人机对话:技术最新进展及应用
报告摘要:人机对话技术旨在解决大众用户在多样化场景下完成复杂任务时的人机“交流障碍”问题。经过70多年的发展,人机对话技术已日渐成熟。目前人机对话技术的特点主要体现在:1)核心引擎从早期的单模态单轮问答升级为多模态多轮交互,2)从实验室走向大规模真实应用场景,3)在高噪声复杂场景下的规模化应用仍然受到很大的挑战。本报告主要介绍多模态人机对话技术的基础知识、技术最近进展、大规模产业应用及应用中遇到的挑战,并开放的与大家一同探讨拟人化人机交互的未来。
杨振宇OPPO
讲者简介:杨振宇,OPPO小布智能中心-NLP与对话算法负责人,深圳市高层次人才计划入选者,于中国科学技术大学获得计算机学士和博士学位。近年来主要从事自然语言处理、对话式AI相关算法研究与落地应用工作。2015年之前任教于国防科学技术大学,学术论文代表作单篇他引超过800次,入选ESITop0.1%热点论文。所从事科研工作曾获高等院校(科学技术)科技进步二等奖1次、湖南省科技进步二等奖2次。2015年后加入工业界,专注于对话式AI关键算法技术研发与落地,2018年加入OPPO主导NLP与对话算法工作,帮助公司级战略产品小布助手实现从零到月活过亿的突破。
报告题目:面向亿级用户的小布助手对话式AI算法系统实践与思考
报告摘要:对话式AI是人工智能和人机交互领域非常重要的研究方向。作为全球知名的智能设备制造商,OPPO把万物互融作为未来的战略发展方向,而对话式AI则是该战略方向不可或缺的重要组成部分,对于打造全新智慧操作系统,为用户提供有趣、贴心的智能交互体验具有非常重要的意义。本报告将以OPPO小布助手对话式AI算法系统的发展历程为案例,分享亿级用户对话式AI系统的构建目标、要解决的关键算法问题、主要实践与思考,以及未来面临的挑战。
时间:2021年12月3-5日
地点:北京•中国科学院计算技术研究所一层报告厅(北京市海淀区中关村科学院南路6号)
报名须知:
1、报名费:CCF会员2800元,非会员3600元。食宿交通费用自理。根据交费先后顺序,会员优先的原则录取,额满为止。
2、考虑到受部分地区疫情影响,个别学员有可能不方便到现场参加本期ADL。CCF特别投入人力物力为学员开通线上直播讲座,与现场同步。线上学员可以在线与讲者和学员交流。线上线下同时举办。线上线下报名注册费用相同、报名方式相同。请各位根据自己的情况酌情选择参加线上或者线下活动。请选择线上参与的学员发邮件到adl@ccf.org.cn报备:姓名/单位/手机号码/邮箱(请注明ADL期数和主题)。
3、报名请预留不会拦截外部邮件的邮箱,如qq邮箱。
4、报名截止日期:12月1日。
5、咨询电话:18810669757 咨询邮箱:adl@ccf.org.cn
缴费方式:
在报名系统中在线缴费或者通过银行转账
银行转账(支持网银、支付宝):
开户行:招商银行北京海淀支行
户名:中国计算机学会
账号:110943026510701
请务必注明:姓名+ADL124
报名缴费后,报名系统中显示缴费完成,即为报名成功。
报名方式:请选择以下两种方式之一报名:
1、扫描(识别)以下二维码报名:
2、点击报名链接报名:https://conf.ccf.org.cn/ADL124
相关链接:ADL线下活动全面启动
智能语音交互技术在媒体的应用和前景
可以说,语音交互技术初步实现了从规则指令到自然语言指令的进步,但距离自由交互尚有巨大的鸿沟。现阶段基于机器学习的“闲聊机器人”多处在实验室阶段。
语音交互的技术应用
(一)市场参与者
尽管语音交互尚未完全成熟,但国内外互联网巨头都认为此项技术前景可期,并将其作为人工智能战略的重要组成部分。软件方面,具备语音交互功能的智能语音助手成为核心产品,如苹果Siri、亚马逊Alexa、微软小娜等。硬件方面,继搭载了智能语音助手的移动终端后,智能家电、智能车载终端也纷纷增加了语音交互功能。此外,众多语音技术公司针对不同行业及场景提供了各类软硬件解决方案。
开放合作是这一市场的首要需求。事实证明,语音交互及人工智能技术应用的产业链极长,物联网的实现绝非一家之力。大部分市场参与者都采取了公开SDK,全面打造开放平台的发展战略。相反,有批评者认为,正是因为苹果的保守导致Siri在这轮发展中落后于谷歌、亚马逊、微软等公司的竞品。
技术应用的本地化是另一个问题。尽管亚马逊在炙手可热的智能音箱领域占有先机,但因语言环境的特殊性,本土企业在竞争中具有很大优势。BAT、科大讯飞等大型互联网企业整合产业间资源,基本构建起开放平台,率先布局;思必驰、出门问问等语音技术公司专注于解决方案等B端业务;传统音箱与硬件制造商、内容及服务供应商纷纷入局。
(二)典型应用场景
目前,商用的智能语音交互以语音唤醒+服务响应为主,部分产品支持多轮对话,基本实现了5米远场识别、连续语音和命令词识别、上下文语义理解等关键技术。主要应用场景包括移动终端、智慧家居、车载语音系统、其他行业解决方案等。
1.移动终端与可穿戴设备
2011年,苹果最早推出了搭载Siri的智能手机。随着微软、谷歌、亚马逊等公司的入局,手机、平板、笔记本电脑、手表等可穿戴设备普遍内置了智能语音助手。除了设定闹钟、查询天气等官方开发的技能外,语音助手已兼容第三方应用,如用Siri口述发送微信等。
但手机端语音助手在使用习惯上面临两大质疑:
第一,大量应用以触摸屏视觉交互为设计基础。语音交互的信息量有限,难以实现复杂操作;
第二,语音交互最大的限制是公共场景中的隐私问题。据不完全统计,仅有3%的用户会在公开场合用语音对手机发号施令。
因此,语音交互在移动终端与可穿戴设备上主要起到辅助作用,用户教育尚需时间。
2.智慧家居
事实证明,语音助手在私密场景中的使用率更高,其理想应用场景是“家>私家车>路上>工作”。家居场景中,智能电视、智能冰箱甚至智能镜子等设备都可搭载语音助手,实现语音控制,串联起从厨房、客厅到起居室、卫生间的智慧家居物联网。
因为传统家电硬件的语音交互改造成本较高,入局的互联网企业普遍推出家用智能音箱作为核心硬件,试图将这一全新品类打造成家居场景的语音控制枢纽。
3.车载语音控制系统
随着语音识别、自然语音理解等技术的发展,在车内场景中通过语音交互控制车载导航、娱乐、空调等系统成为可能。语音控制系统将驾驶者的注意力从屏幕和按钮中解放出来,一定程度上增强了行车安全性。由于车内场景具有一定的私密性,这种交互方式自然容易被接受。
百度语音为特斯拉提供中文解决方案,阿里云和上汽合作研发车载操作系统,科大讯飞推出飞鱼语音助理,种种迹象表明互联网巨头已通过语音交互技术切入车联网的竞争中。
4.其他行业解决方案
除此之外,语音识别、自然语言理解、语音合成等底层技术在各行各业都有很强的应用潜力。在消费、金融、教育、医疗等领域提供智能客服、语音转录、机器翻译、机器配音等诸多解决方案。
服务业方面,科大讯飞开发的智能客服和语音合成解决方案已入驻众多呼叫中心;百度基于小度机器人开发的语音点餐系统走进肯德基上海旗舰店。
教育业方面,科大讯飞、思必驰、云知声等公司均推出儿童陪伴机器人的解决方案。
医疗业方面,Nuance、科大讯飞等公司都能提供实时语音转写和电子病历录入的服务。
原则上,所有需要人与人进行对话的行业都可由智能语音助手进行赋能。
媒体领域的应用前景
媒介是人的延伸,语音交互技术与人工智能的进步无疑创造了媒体与用户接触的更多场景。目前,包括语音识别(语音唤醒、语音转文字)及语音合成(文字转语音)等技术模块已能够实现成熟应用。对媒体而言,内容生产、经营、运营等全链条均可由智能语音交互带来优化乃至深刻变革。
(一)针对语音交互硬件进行内容分发
媒体以内容提供者身份入场,将现有的智能语音交互硬件打造成新的流量入口和分发渠道,这是一种自然的合作。
国外产品在这方面先行一步,亚马逊Alexa开发团队主动推出了FlashBriefing功能,目前已有路透社、福克斯新闻、BBC、NPR、纽约时报、华盛顿邮报、人物杂志、ESPN、TheDailyShow、DailyTechHeadlines等大量专业媒体入驻合作。该功能主要提供语音新闻简讯,每日定时更新,拓展了内容分发渠道,特定唤醒语为“Alexa,what’smyflashbriefing?”。
这类功能主要使用了语音识别(语音唤醒)及语音合成(文字转语音)技术。媒体通过音频内容的定制化生产和重新编辑,实现对全新人机交互入口的提前占位。目前,电子合成语音和人类的自然语音尚存差距,文字及电视媒体需要适应纯音频的稿件创作,技术和内容还需磨合。
(二)开发基于语音UI的新闻应用
移动互联网时代的主流交互方式是基于文本的触摸屏交互,但物联网时代势必需要重新开发基于语音控制的全新用户界面。
媒体需要做的是强化自身内容数据库建设,在此基础上合作开发基于语音交互的App,优化用户的语音控制体验,简化“打开App”“选中搜索框”等复杂操作,提供即时的“语音搜新闻”等功能。
如华盛顿邮报专门为Alexa设计的语音控制App产品,可实现类似搜索引擎的语音问答功能,从华盛顿邮报的内容数据库中回答用户关于奥运会等特定新闻内容的问询。
(三)语音交互技术赋能新闻生产与媒体经营
内容生产方面,媒体采编系统可引入语音转文字、文字转语音等成熟技术,提高记者编辑的新闻生产效率。
运营和经营方面,人机语音对话数据能极大地丰富用户画像,人工智能+营销、人工智能+用户调研等方向前景广阔。
(四)人工智能进一步发展将带来颠覆式的“聊新闻”模式
2016年2月,《大西洋月刊》旗下的Quartz客户端推出基于机器算法的文字聊新闻模式。百度新闻、央广“下文”客户端、浙江24小时联合微软小冰逐步跟进。人工智能算法正深刻变革新闻传播的方式。
新闻应用相关的自然语言唤醒、自然语言理解、新闻类话题的对话管理、自然语言生成等技术仍在不断完善中。智能语音交互的全链条真正打通后,语音技术配合机器算法终将为用户提供类似真人“聊新闻”的使用体验。因此尽快将新闻应用与语音交互硬件相结合,提前积累用户语音行为数据库显得尤为重要。
(五)远景展望:同时关注其他交互方式
对媒体而言,5G商用近在眼前,物联网发展的快车即将启程,但技术并非自身优势。通过积极的开放战略提前占位各类智能硬件入口是更加切实可行的路径。
值得一提的是,在商业的裹挟下,技术前沿到产品转化之间存在巨大鸿沟。人机交互的发展前景仍不明朗,目前尚无一种硬件成为主流入口。同时发展的还可能是基于AR、VR等技术的手势、眼神甚至意识交互。因此语音交互技术及设备作为自然人与万物互联网络的接口,也不是唯一的前沿方向。
2018年初,Facebook关闭虚拟助理“M”、亚马逊Alexa深夜发出怪笑、机器人利用社交网络进行深度学习学会了脏话等行业新闻值得关注,技术的不成熟使得一些品牌暂时关闭了虚拟语音助理。作为入局的媒体,更应当随时关注人机交互和人工智能技术的最新发展,做好灵活应对甚至切换赛道的准备。(李清宙:国家新闻出版广电总局出版融合发展(浙报集团)重点实验室、浙报集团新媒体运营中心研究员)来源:传媒评论返回搜狐,查看更多
智能交互技术
[1] 马楠,徐歆恺,张欢.智能交互技术与应用[M].北京:机械工业出版社,2019.
[2] 顾振宇著.交互设计:原理与方法[M].北京:清华大学出版社,2016年第1版.
[3] 李四达著.交互与服务设计:创新实践二十课[M].北京:清华大学出版社,2017年第1版.
[4] 5TrendsEmergeintheGartnerHypeCycleforEmergingTechnologies,2018[EB/OL].[2019-02-28].https://www.gartner.com/smarterwithgartner/5-trends-emerge-in-gartner-hype-cycle-for-emerging-technologies-2018/.
[5] 唐小成.增强现实系统中的三维用户界面设计与实现[D].电子科技大学,2008.
[6] 董威,文艳军,李暾,齐治昌.软件工程专业在线课程建设思考[J].计算机教育,2015(06):51–55.
[7] 陈毅能.中国科学院大学,2016.基于生理计算的多通道人机交互技术研究[D].2016.
[8] 史忠植.认知科学[M].合肥:中国科学技术大学出版社,2008.
[9] 黄希庭,郑涌.心理学导论[M].北京:人民教育出版社,2015.
[10] 认知(词语释义)_百度百科[EB/OL].[2018-08-03].https://baike.baidu.com/item/%E8%AE%A4%E7%9F%A5/1262721?fr=aladdin.
[11]DeanJ.MonstersIllusion[J].MightyOpticalIllusions,2006.
[12]BrunerJS,MinturnAL.PerceptualIdentificationandPerceptualOrganization[J].TheJournalofGeneralPsychology,1955,53(1):21–28.
[13]郑南宁.认知过程的信息处理和新型人工智能系统[J].中国基础科学,2000(08):11–20.
[14]你和小伙伴们是怎么被惊呆的?[EB/OL].,2013(2013-07-29)[2019-03-22].https://tech.hexun.com/2013-07-29/156579849.html.
[15]管连荣.美国著名心理学家H·A·西蒙教授来华访问[J].心理科学,1982(1):62–63.
[16]秦裕林.认知心理学与计算机科学的研究与教学——介绍西蒙教授的认知心理学讲学[J].心理学动态,1984(01):63-64+48.
[17]余淼.谈图形用户界面设计中的交互性信息传递[J].中国包装工业,2015(06):147.
[18]李枫,徐韬.智能语音交互技术在呼叫中心中的应用[J].2016电力行业信息化年会论文集,2016:5.
[19]席乐.浅谈多点触摸技术在产品操作界面设计中的应用[J].科教导刊(上旬刊),2013(03):176–177.
[20]马楠,高跃,李佳洪,李德毅.自驾驶中的交互认知[J].中国科学:信息科学,2018(8).
[21]LScapinD,SenachB,TrousseB,PallotM.UserExperience:BuzzwordorNewParadigm?[J].ACHI2012-5thInternationalConferenceonAdvancesinComputer-HumanInteractions,2012.
[22]丁一,郭伏,胡名彩,孙凤良.用户体验国内外研究综述[J].工业工程与管理,2014(04):92-97.
[23]五步走,带你了解交互设计流程|人人都是产品经理[EB/OL].[2017-09-28].https://www.woshipm.com/ucd/577334.html.
[24]CooperA,ReimannRM.软件观念革命[M].詹剑锋,译,张知非,译.北京:电子工业出版社,2005.
[25]拿不定设计?让经典的尼尔森十大可用性原则帮你!(附案例)[EB/OL].[2017-09-27].https://www.uisdc.com/nelson-usability-design-principles.
[26]设计基础:细说“十大可用性原则”|人人都是产品经理[EB/OL].[2017-09-27].https://www.woshipm.com/ucd/730477.html.
[27]WixonD.Bookreview:PRINCIPLESANDGUIDELINESINSOFTWAREUSERINTERFACEDESIGNbyDeborahJ.Mayhew(PrenticeHall,1992)[J].AcmSigchiBulletin,1993,25(2):51–53.
[28]是时候,聊一聊交互设计的知识体系了![EB/OL].简书[2017-10-03].https://www.jianshu.com/p/7399791c5f8f.
[29]赵佳,赵铭,李昌华.分级网格服务的Apacheab测试分析[J].电子设计工程,2009,17(03):22–24.
[30]2018年,你一定要选对这些原型工具-UI中国-专业用户体验设计平台[EB/OL].[2018-08-21].https://www.ui.cn/detail/322892.html.
[31]电商类Web原型制作分享——天猫[EB/OL].[2019-03-21].https://www.mockplus.cn/sample/post/1065.
[32]所谓原型,是个什么东西?|人人都是产品经理[J]..
[33]15款优秀移动APP产品原型设计工具|人人都是产品经理[EB/OL].[2018-06-24].https://www.woshipm.com/rp/64741.html.
[34]周剑辉,顾新建.移动设备在工作流管理系统中的应用[J].机电工程,2004(12):42–45.
[35]浅说移动端与pc端交互设计的区别||观点|shaozhurong-设计文章/教程分享-站酷(ZCOOL)[EB/OL].[2018-06-24].https://old.zcool.com.cn/article/ZNTY4MTI0.html.
[36]StevenHoober.HowDoUsersReallyHoldMobileDevices? ::UXmatters[EB/OL].,2013(2013-02-18)[2019-03-02].https://www.uxmatters.com/mt/archives/2013/02/how-do-users-really-hold-mobile-devices.php.
[37]ThisIsHowFartheAverageSetofThumbsWillReachontheNewiPhone6|HYPEBEAST[EB/OL].,2014(2014-09-20)[2019-02-23].https://hypebeast.com/2014/9/realistically-this-is-how-far-the-average-set-of-thumbs-will-reach-on-the-new-iphone-6.
[38]关于移动端和PC端的交互的区别-Erichain-博客园[EB/OL].[2018-06-24].https://www.cnblogs.com/erichain/p/4678163.html.
[39]App界面设计风格|App界面交互设计规范[EB/OL].[2017-10-08].https://www.iamue.com/8754.
[40]卡卡的人生哲学.App界面设计风格[EB/OL].,2015(2015-08-24)[2019-03-03].https://www.woshipm.com/ucd/193763.html.
[41]ColourAssignment-Preferences[EB/OL].,2013(2013-03-23)[2019-03-01].https://www.joehallock.com/edu/COM498/preferences.html.
[42]Themes-iOS-iOS-HumanInterfaceGuidelines-AppleDeveloper[EB/OL].[2018-10-06].https://developer.apple.com/design/human-interface-guidelines/ios/overview/themes/.
[43]H5轻应用技术,未来无限可能[EB/OL].[2018-06-24].www.sohu.com/a/64107789_379442.
[44]1.1Android平台简介·AppInventor-零基础Android移动应用开发[EB/OL].[2018-06-24].https://minghuiwu.gitbooks.io/appinventor/content/11_android_ping_tai_jian_jie.html.[45]平台架构.AndroidDevelopers[EB/OL].[2019-03-02].https://developer.android.google.cn/guide/platform/
[46]1.2AppInventor简介·AppInventor-零基础Android移动应用开发[EB/OL].[2018-06-24].https://minghuiwu.gitbooks.io/appinventor/content/12_appinventor_jian_jie.html.
[47]终极入门教程——5分钟学会AppInventor2-AppInventor汉化版[EB/OL].[2018-06-24].https://www.wxbit.com/?p=157.
[48]人工智能:语音开启全新交互时代[EB/OL].[2018-12-09].https://www.cs.com.cn/gppd/hyyj/201705/t20170512_5280029.html.
[49]语音革命元年来了:BBC、FT等媒体要点亮哪些全新技能树[EB/OL].[2018-12-09].https://new.qq.com/omn/20180312/20180312A07ECH.html.
[50]GUI和VUI到底有哪些区别?来看这篇超全面的总结!-优设-UISDC[EB/OL].[2018-12-11].https://www.uisdc.com/gui-vui-differences.
[51]「语音交互设计」之VUI简析|L-insights_用户[EB/OL].[2018-12-11].www.sohu.com/a/251671898_610473.
[52]曾丽霞,康佳美,孙甜甜,孙传祥.语音办公助手VUI交互设计研究[J].工业设计研究(第六辑),2018:7.
[53]语音识别的前世今生|深度学习彻底改变对话式人工智能[EB/OL].[2018-12-10].https://www.cnetnews.com.cn/2017/0821/3097159.shtml.
[54]语音识别技术里程碑:微软已将识别错误率降至5.1%-语音识别,人工智能,微软研究院-IT之家[EB/OL].[2018-12-12].https://www.ithome.com/html/it/322227.htm.
[55]微软语音识别词错字率低至5.9%,已达到人类专业速记员水平-超能网[EB/OL].[2018-12-10].https://www.expreview.com/50100.html.
[56]为什么说语音交互是未来的主流交互方式之一?|人人都是产品经理[EB/OL].[2018-12-10].https://www.woshipm.com/pd/816580.html.
[57]语音交互的基本概念和设计实践[EB/OL].[2018-12-09].https://www.woshipm.com/pd/1039577.html.
[58]干货|IDC发布对话式人工智能白皮书[EB/OL].[2018-11-12].https://www.qianjia.com/html/2018-03/21_287657.html.
[59]1.3人机对话交互基础概念(1)简书[EB/OL].[2018-12-17].https://www.jianshu.com/p/f927075b5c47
[60]程彬,陈婧,乌兰.智能人机交互产品的服务设计思路探讨[J].设计,2016(09):156–157.
[61]Salvendy董建明、傅利民、饶培伦、[希腊]CONSTANTINESTEPHANIDIS、[美]GAVRIEL.清华大学出版社,2016.人机交互:以用户为中心的设计和评估[M].第5版.,2016北京:.
[62]科大讯飞公布汽车产品布局战略:推出飞鱼OS和开放三大平台[EB/OL].[2019-02-23].https://www.sohu.com/a/271415691_122982.
[63]Pierre-YvesO.Theproductionandrecognitionofemotionsinspeech:featuresandalgorithms[J].InternationalJournalofHuman-ComputerStudies,2003,59(1):157–183.
[64]TurkM.SpringerUS,2014.GestureRecognition[G]//IKEUCHIK.ComputerVision:AReferenceGuide.,2014Boston,MA::346–349.
[65]WangJJ,SinghS.Videoanalysisofhumandynamics—asurvey[J].Real-TimeImaging,2003,9(5):321–346.
[66]YangM-H,KriegmanDJ,AhujaN.DetectingFacesinImages:ASurvey[J].IEEETrans.PatternAnal.Mach.Intell.,2002,24(1):34–58.
[67]DuchowskiAT.Abreadth-firstsurveyofeye-trackingapplications[J].BehaviorResearchMethods,Instruments,&Computers,2002,34(4):455–470.
[68]JaimesA,SebeN.Multimodalhuman–computerinteraction:Asurvey[J].ComputerVisionandImageUnderstanding,2007,108(1):116–134.
[69]PortaM.Vision-baseduserinterfaces:methodsandapplications[J].InternationalJournalofHuman-ComputerStudies,2002,57(1):27–73.
[70]DuricZ,GrayWD,HeishmanR,Rosenfeld ANDA,SchoellesMJ,SchunnC,WechslerH.Integratingperceptualandcognitivemodelingforadaptiveandintelligenthuman-computerinteraction[J].ProceedingsoftheIEEE,2002,90(7):1272–1289.
[71]DondiP,LombardiL,PortaM.Developmentofgesture-basedhuman–computerinteractionapplicationsbyfusionofdepthandcolourvideostreams[J].IETComputerVision,2014,8(6):568–578.
[72]刘心雨.交互界面设计在虚拟现实中的研究与实现[D].北京邮电大学,2018.
[73]郭莹洁.关于虚拟现实技术人机交互的研究[J].信息记录材料,2018,19(08):247–248.
[74]田远霞.浙江大学,2015.增强现实下多通道交互模型研究与实现[D].,2015.
[75]MalkawiAM,SrinivasanRS.ACTAPressMultimodalHuman-ComputerInteractionforImmersiveVisualization:IntegratingSpeech-GestureRecognitionsandAugmentedRealityforIndoorEnvironments[C]//.
[76]赵永惠.人机交互研究综述[J].信息与电脑(理论版),2017(23):24-25+28.
[77]赵沁平.虚拟现实中的10个科学技术问题[J].中国科学:信息科学,2017,47(06):800–803.
[78]HuismanD,FrelingR,WagelmansAPM.ARobustSolutionApproachtotheDynamicVehicleSchedulingProblem[J].TransportationScience,2004,38(4):447–458.
[79]ColijnP,HerbachJS,McnaughtonMP.2017-08-15Determiningpickupanddestinationlocationsforautonomousvehicles:中国,9733096[P]. ,2017.
[80]苏景颖.关于智能汽车车联网系统分析[J].时代汽车,2018(02):125–126.
[81]浅谈车联网的应用场景及发展趋势_车联网功能_车联网体系结构-电子发烧友网[EB/OL].[2019-02-23].https://m.elecfans.com/article/603252.html.
[82]王世宝.基于5G技术车联网的发展趋势及应用前景分析[J].时代汽车,2018(06):169–170.
[83]KehoeB,MatsukawaA,CandidoS,KuffnerJ,GoldbergK.Cloud-basedrobotgraspingwiththegoogleobjectrecognitionengine[C]//2013IEEEInternationalConferenceonRoboticsandAutomation.,2013:4263–4270.
[84]赵连翔,王全玉,贾金苗,陆峥玲.机器人云操作平台的实现研究[J].华中科技大学学报(自然科学版),2012(S1vo40):161–164.
[85]交互设计快速检查清单InteractionDesignQuickChecklist[EB/OL].[2017-10-05].https://www.iamue.com/18702.
[86]中国互联网的今年和明年,你必须知道这些事[EB/OL].[2019-08-25].www.sohu.com/a/118096152_358836.
智能机器人三大核心技术(二)
自然语音处理技术:包括中文分词、词性标注、实体识别、句法分析、自动文本分类等技术。
语义分析和理解:包括知识表示、本体理论、分领域的语义网络、机器推理等。
知识构建和学习体系:包括搜索技术、网络爬虫、数据挖掘、知识获取、机器学习等技术。
语音技术:包括语音识别、语音合成和声纹识别等。
整合通信技术:包括跨平台即时通讯整合技术、超大负载消息集群处理技术、移动客户端开发技术。
云计算技术:包括海量数据分布式存储、统计和分析技术。
经过科研人员的不断努力,目前语音交互技术已成功进入商用门槛,如今在智能手机、智能音箱、智能台灯等设备中大多采用了语音人机交互技术,随着语音人机交互技术应用价值的逐渐显现,众多企业纷纷布局语音人机交互领域,如科大讯飞、谷歌、捷通华声等企业。随着布局企业的不断增多,语音人机交互的产业规模也在不断扩大,并带动了机器人、家电、汽车等相关产业的发展。
除了语音人机交互,基于视觉的人机交互技术也是目前研究的一大热点,对于一个人来说最为主观的就是看脸部表情,未来机器人也需要理解人的感情,这当中就会涉及到人脸识别技术,包括特征提取及分类,目前在该技术中,对于人类基本的七种表情识别率可达到百分之八十左右,当然目前还是一些比较明显的表情,如在高兴或者发怒的情况下,但在人的自然交流过程中,人的表情还是比较平淡的,对于机器人来说,目前还难以达到准确的分辨效果,这些过程是需要进行一些更加复杂的特征来提取。
当然,除了对脸部表情的理解,手势也是人最为直接的表现形式,通过一些手势也可以达到很多的命令,不同的手势形状可以构成不同的动作指令。虽然手势有很多种,但可以找到比较容易记忆的手势,然后进行交互。
手势识别是人机交互的重要手段之一,通过手部的动作直接控制计算机,相比传统的键盘、鼠标等控制方式,具有自然直观和便于学习等优点。
目前常用的手势识别方法主要包括基于神经网络的识别方法、基于隐马尔可夫模型的识别方法和基于几何特征的识别方法。基于神经网络的手势识别方法,具有抗干扰、自组织、自学习且抗噪声能力等优点,但训练时需要采集的样本量大,且对时间序列的处理能力不强。基于隐马尔可夫模型的识别方法,能够细致的描述手势信号,但拓扑结构一般,计算量相对较大。基于几何特征的识别方法,是根据手的区域及边缘几何特征关系进行手势识别,该方法无需对手势进行时间上的分割,计算量小,
随着移动机器人和手势识别的发展,人机交互技术也在不断更新,自从微软推出Kinect体感外设以来,自然的人机交互成为当前的研究热点,通过Kinect外设,可以解除人们受键盘、鼠标等传统交互方式的束缚,具有重要的意义。返回搜狐,查看更多