《语音识别技术》教学设计
包桂霞
设计背景
当前人工智能课程刚起步,还处于探索研究阶段,各版本教材多以理论介绍为主,缺少感知体验、实践模拟。如何以学习者为中心,上好基于大班教学的普惠型人工智能课程是本文探索的重点,本文以智能语音技术中的语音识别技术一课为例探讨如何培养学生的人工智能鉴赏力、理解力、应用力、创新力以及责任感。
学习内容分析
智能语音技术是人工智能领域的重要分支,在生活中有着广泛应用,如语音输入、语音导航、语音助理、语音音箱、语音评测等。它综合应用了大数据、机器学习、声学、语言学等知识。初中阶段侧重于让学生了解语音识别的定义,理解其工作流程,知道其应用,初步尝试运用人工智能技术创新地解决生活中的问题。
学习者分析
本课的学习者是初一年级学生,他们乐于接受新技术,在生活中已经积累了许多使用语音识别技术的经验,如进行语音输入、语音导航、使用智能音箱等,为理解语音识别的定义及价值奠定了基础。他们乐于挑战,对稍具难度的知识保持着较强的好学心,他们爱动手、乐创造,对制作“智能语音导游”有着强烈的内驱力。本课的学习任务具有挑战性,需要学生们分组合作完成,课前将学生分为3人一组,每组一个平板,一套人工智能设备。这需要教师指导学生进行合理分工,调动每一位成员的积极性,确保小组合作高效进行。
学习目标
①识别语音识别技术在生活中的应用并了解及价值;②掌握语音识别技术的定义并理解其工作流程;③運用语音识别技术设计智能导游的功能并编程实现;④树立合理使用人工智能技术的社会责任。
教学过程
1.慧眼识AI
(1)展示“黑科技”,激发学习兴趣,掌握概念
课前教师搭建基于小米小爱音箱和小米空调伴侣的“人工智能+物联网”环境,实现语音控制空调开关;在一体机上连接讯飞智能语音鼠标,实现语音转字幕。
师:今天有点冷,让我们打开空调。小爱同学,请打开空调,设置26度。(此时空调自动启动,同时教师的语言以字幕形式呈现在一体机屏幕上,学生们看到这两个现象时露出十分惊奇的表情,课堂气氛一下子被调动起来)请大家分析老师的语音实现什么功能。
生:实现了语音控制空调和语音变成文字。
分析并理解概念:语音识别是机器通过识别和理解,将语音转换成指令或文本的技术。
(2)关联生活,识别生活中AI应用,分析价值
教师提问:生活中还有哪些语音识别的应用,它们发挥了怎样的价值?
学生对照概念关联已有生活经验,分享相关应用,如语音输入法,让沟通更高效;语音控制,让控制更方便;语音导航,让驾驶更安全;语音客服,降低成本
设计意图:首先通过体验生活“黑科技”,感知语音识别技术,激发学生的学习兴趣并引出语音识别的概念。在理解概念的基础上对照概念识别出生活中语音识别技术的应用并能分析价值,提高对人工智能技术应用“鉴赏力”,做到慧眼识AI。
2.用心析AI
(1)类比生活,解析语音识别原理
师:语音识别功能是如何实现的?分析人类的学习过程:辨识音素→组合成拼音→对应汉字→写出汉字。该流程与语音识别过程对应:声音输入→切割音素→特征提取→声学模型匹配→语言模型匹配→输出文字(如图1)。
设计意图:通过类比人学习拼音汉字的过程,初步理解语音识别技术的原理。将深奥的语音识别流程与已有的生活经验类比,方便学生理解。但是语音识别技术不能简单地和人类学习过程对应,语音识别技术中有很多知识超过初中生现阶段的认知,在讲解时要做适当的说明。
(2)虚拟实验,剖析语音识别流程
实验一:
使用讯飞语记APP,体验语音输入功能。a.观察语音转写的准确率,分析影响语音识别准确率的因素。b.观察语音识别技术能否识别出语气,如疑问语气、感叹语气。
实验结论:语音转写的准确率很高,但会受环境音的影响,需要靠近设备并清晰地说出需要输入的文字;目前语音识别技术能识别出疑问语气,不能识别出感叹语气。语音识别技术还需继续发展。
实验二:
利用虚拟实验平台体验语音转写的流程,体验语音识别的过程(如图2)。a.预加重和分帧的作用?b.语言模型匹配过程中“权重值”的含义。
实验结论:预加重让声音特征更清晰更易提取,分帧是切割音素,权重值代表匹配度,越高越接近正确答案。
设计意图:通过语音识别实验,学生体验到语音识别技术的魅力,分析不足,学生的角色从技术使用者升级到技术的评析者;通过虚拟实验体验语音转写流程,形象感知其中的关键技术,加深对AI技术的理解,提升AI理解力。
3.巧思创AI
(1)任务
常有外校教师到校参观,运用语音识别技术设计校园智能导游代替校园讲解员的部分工作。
(2)功能设计
小组成员分析讨论讲解员的工作有哪些?哪些工作可被语音识别技术代替?哪些工作不能被代替?设计智能导游功能图(如图3),并细化每个功能的工作场景。
例:指路场景
来宾:我要问路。
机器人:请问你想去哪里?
听来宾声音。
如果来宾说“科技长廊”。
那么机器人说“科技长廊在笃行楼2楼南侧”。
如果来宾说“理化生长廊”。
那么机器人说“理化生长廊在笃行楼5楼”。
(3)编程测试
小组探究学习编程平台中的AI模块:语音转写、语音命令词,编写程序。
(4)评价展示
参考学习评价表(如下表),对作品进行自评,满分100分。
小组成员上台展示功能,其他学生仔细观察机器人的动作并剖析程序,展示者验证并进一步介绍设计意图、功能特色等。
设计意图:通过制作基于语音识别的智能导游机器人,学生运用人工智能知识创新解决生活中的问题,从AI的理解者升级到AI应用的设计者、创造者。在这个过程中引导学生辩证思考人与人工智能的关系,学会设计人工智能应用场景,编写人工智能程序,创作人工智能作品,提高AI创作力,实现巧思创AI。
4.明理用AI
(1)打开眼界,了解AI技术在行业中的深度应用
语音识别技术与行业深度结合,可以发挥更大的价值。播放北京大学口腔医院修复科门诊运用智能语音技术帮助医生记录病患信息的视频,播放苏州市中级人民法院借助语音识别技术提高提审品质的现场视频。
(2)理性思考,分析技术的伦理问题
技术是把双刃剑,使用技术时,要理性思考它可能会带来危害并做出对应防范。例如,要规避麦克风恶意监听,手机APP软件仅在使用时获得麦克风权限等。
设计意图:通过深入了解行业应用,打开学生眼界,将对AI应用的认知从生活升华到行业,同时理性思考滥用技术带来的危害,加强信息社会责任意识。
教学反思
“学习者中心”是教学设计的核心视角之一,与“学科中心”“问题中心”相比,更加关注学生学习的起点和终点,关注学生的需要、兴趣和目的。语音识别技术涉及的知识很前沿,因此,制订合理的学习目标、选择恰当的学习方式、设计合适的课堂任务尤为重要。以学习者为中心,就是要充分了解学生的学习兴趣、学习已知,围绕学情设计教学。通过课前设计的学情调查,了解到学生对智能语音在生活中的应用有不少体验,对其价值有初步的认识。因此,笔者在课堂引入环节摒弃了常见应用,选择他们能理解但是不常见的“语音控制空调”“字幕自动显示”作为“黑科技”来调动课堂气氛。在调研中,了解了学生的学习需求,他们主动希望学习语音识别技术背后的原理,这符合这一年龄段学生的心理特点,他们对新事物有着强烈的好奇心、探索欲,因此通过APP体验、虚拟实验等方式让学生体验感知原理。在小组合作环节,指导学生根据成员的个性特点、学习风格进行组内分工,充分发挥组内每位成员的价值,将合作效果最大化。
在课堂设计中,根据学生的认知特点,设计了四个环节,让学生从感知体验到理解掌握,从应用创新到感悟内化,一步步提高AI鉴赏力、理解力、创造力、责任感。
智能语音单元的内容十分丰富,如何将本课的知识溶入到大单元整体设计中,让学生在项目中学习,也是需要考虑并实施的。
点 评
包老师的这节主题为《语音识别技术》的初中人工智能普及课,是让学生了解语音识别技术的应用、概念、原理,设计并编写具有语音识别功能的人工智能作品,教学目标指向学生的人工智能鉴赏力、理解力、应用力、创新力以及责任感。整堂课体现了以学习者为中心的理念。
(1)学习者的核心素养是教学设计的目标。信息技术的核心素养包括信息意识、计算思维、数字化学习与创新、信息社会责任。课堂的各个环节均指向学生的核心素养。例如,在“慧眼识AI”环节,通过识别、列举包含语音识别功能的应用,分析其在各种场景下的价值,提高人工智能鉴赏力,提高学生在识别人工智能技术时的信息意识。在“用心析AI”环节,通过原理剖析及虚拟实验带领学生分析语音识别的算法原理,提高学生的计算思维。在“巧思创AI”环节,通过运用语音识别技术解决校园生活中的真实问题,提高数字化学习与创新能力。在“明理用AI”环节,侧重于提高学生的信息社会责任,学生分析语音识别技术可能带来的危害以及规避危害方法,培养信息安全意识与能力,遵守信息社会的道德与伦理准则,对信息技术创新所产生的新观念和新事物,既具有积极学习的态度,又有理性判断和负责行动的能力。
(2)学习者的学情特征是教学设计的关键。学情分析是教学的罗盘针,是确立教学目标和实施教学过程的重要基础。学情研判可以通过摸底考查、问卷等较为正式的方式,也可以采取抽查或提问等非正式的方式,据此设计课程的深度、难度和广度。包老师采用课前调查的方式了解学情,根据学生年龄特点、已有知识和能力让学生从感知体验到理解掌握,从应用创新到感悟内化,一步步提高学生AI鉴赏力、理解力、创造力、责任感。例如,选择更能吸引学生的黑科技作为引入,通过互动体验的方式理解概念及原理,选择学生感兴趣的问题作为课堂任务等,获得学生更高的参与度。
(3)学习者的参与热情是教学评价的依据。学生是课堂的主体,只有学生积极参与学习了,才能产生良好的学习效果。课堂上引导学生觀察生活并设置学生感兴趣的任务激发学生的学习热情;小组合作的方式调动了学生合作研究的热情;小组展示分享环节,先让学生观察展示者的作品效果,并尝试剖析作品的创作原理,最后请展示者分享创作思想,让学生从观察者走向剖析者,从聆听者走向创作者,这种剖析策略有效提高了学生积极思考的热情。包老师还设计了课堂评价表,建议在评价表中增加对学生参与度的评价,通过评价引导学生更好地参与课堂学习。
(点评人:江苏省南京市科利华中学高建君)
猜你喜欢语音学习者人工智能在线学习环境下学习者画像构建研究电脑知识与技术(2022年11期)2022-05-31微信语音恐惧症意林·作文素材(2021年9期)2021-07-06十二星座是什么类型的学习者意林·少年版(2020年2期)2020-02-18情感过滤假说在对外汉语教学中的应用知识文库(2019年24期)2019-12-30非正式学习环境下基于移动终端的学习者模型研究现代职业教育·职业培训(2019年6期)2019-10-09魔力语音阅读(快乐英语高年级)(2019年5期)2019-09-10MagicPhonetics魔力语音阅读(快乐英语高年级)(2019年2期)2019-09-102019:人工智能商界(2019年12期)2019-01-03对方正在输入……小说界(2018年5期)2018-11-26人工智能与就业IT经理世界(2018年20期)2018-10-24中国信息技术教育2021年5期
中国信息技术教育的其它文章大数据与信息技术教育为了所有人的数据素养:数据科学教育数据科学在信息技术教育中的体系梳理课标:高中信息技术课标中数据科学的学习要求教材:高中信息技术教材里的数据科学教学:数据科学在高中信息技术课程中的教学实施语音识别asr
1writePcm()什么时候调用?开发者可以将获取到的语音数据通过writePcm()方法写入到引擎中,引擎通过识别解码,将语音转化为相应的文本。同时引擎支持自录音和从文件读取的方式进行识别,初始化引擎时可以通过配置ASR_AUDIO_SRC_TYPE参数来实现。文件读取的方式可以进行批量的文件测试。
2cancel()与stopListening()方法的区别是什么?当用户已经启动了识别后,即识别的过程中,突然想停止上述两种方法都可以停下来,差别是:cancel()停止但是不上报当前已经识别的结果;stopListening()停止且会把当前的结果刷新上报显示。
3是否支持多线程调用?HUAWEIHiAIEngine不支持同一应用使用多线程调用同一接口,这样会导致某一线程调用release方法后,卸载模型,导致正在运行的另一些线程出错。故多线程执行同一功能达不到并行的效果。另外,由于Android同一时刻只能有一个录音线程在,故语音识别本身不支持多线程的并发。但是引擎支持使用多线程调用不同接口,如开启两个线程同时使用美学评分和ASR接口。
人工智能之语音识别技术【科普】
03语音增强主要任务就是消除环境噪声对语音的影响。目前,比较常见的语音增强方法分类很多。其中基于短时谱估计增强算法中的谱减法及其改进形式是最为常用的,这是因为它的运算量较小,容易实时实现,而且增强效果也较好。此外,人们也在尝试将人工智能、隐马尔科夫模型、神经网络和粒子滤波器等理论用于语音增强,但目前尚未取得实质性进展。
声学特征提取人通过声道产生声音,声道的形状决定了发出怎样的声音。声道的形状包括舌头,牙齿等。如果我们可以准确的知道这个形状,那么我们就可以对产生的音素进行准确的描述。声道的形状在语音短时可以由功率谱的包络中显示出来。因此,准确描述这一包络的特征就是声学特征识别步骤的主要功能。接收端接收到的语音信号经过上文的预处理以后便得到有效的语音信号,对每一帧波形进行声学特征提取便可以得到一个多维向量。这个向量便包含了一帧波形的内容信息,为后续的进一步识别做准备
本文主要介绍使用最多的MFCC声学特征。
01MFCC简介
MFCC是Mel-FrequencyCepstralCoefficients的缩写,顾名思义MFCC特征提取包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析
Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征
02MFCC提取流程
MFCC参数的提取包括以下几个步骤:
预滤波:CODEC前端带宽为300-3400Hz的抗混叠滤波器。
A/D变换:8kHz的采样频率,12bit的线性量化精度。
预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。
分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧叠为16ms。
加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响。
快速傅立叶变换(FastFourierTransformation,FFT):将时域信号变换成为信号的功率谱。
三角窗滤波:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应。
求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。
离散余弦变换(DiscreteCosineTransformation,DCT):去除各维信号之间的相关性,将信号映射到低维空间。
谱加权:由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数。
倒谱均值减(CepstrumMeanSubtraction,CMS):CMS可以有效地减小语音输入信道对特征参数的影响。
差分参数:大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能。在本系统中,我们也用到了MFCC参数的一阶差分参数和二阶差分参数。
短时能量:语音的短时能量也是重要的特征参数,本系统中我们采用了语音的短时归一化对数能量及其一阶差分、二阶差分参数。
MFCC提取一般流程
模式匹配 和语言处理通过语音特征分析以后接下来就是模式匹配和语言处理
声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。
语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言的语法结构、语义结构分开来,因为当语音发音模糊时人们可以用这些知识来指导对语言的理解过程,但是对机器来说,识别系统也要利用这些方面的知识,只是如何有效地描述这些语法和语义还有困难:
小词汇量语音识别系统。通常包括几十个词的语音识别系统。中等词汇量的语音识别系统。通常包括几百个词至上千个词的识别系统。大词汇量语音识别系统。通常包括几千至几万个词的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。模式匹配部是语音识别系统的关键组成部分,它一般采用“基于模式匹配方式的语音识别技术”或者采用“基于统计模型方式的语音识别技术”。前者主要是指“动态时间规整(DTW法”,后者主要是指“隐马尔可夫(HMM)法”。
隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型,是由Markov链演变来的,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较理想的语音识别模型。
动态时间归整)算法:在孤立词语音识别中,最为简单有效的方法是采用DTW(DynamicTimeWarping,动态时间归整)算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法,用于孤立词识别。HMM算法在训练阶段需要提供大量的语音数据,通过反复计算才能得到模型参数,而DTW算法的训练中几乎不需要额外的计算。所以在孤立词语音识别中,DTW算法仍然得到广泛的应用。
小结:语音识别在移动终端上的应用最为火热,语音对话机器人、智能音箱、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用。语音识别技术也将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。尤其是在智能家居系统中语音识别将成为人工智能在家庭重要的入口,同时,未来随着手持设备的小型化,智能穿戴化也将成为语音识别技术的重要应用领域。返回搜狐,查看更多
更所资讯请关注我们!一个有维度的人工智能平台!dmindAI精彩等你来