人工智能产业发展现状与四大趋势
随着全球新一轮科技革命和产业变革孕育兴起,人工智能等数字技术加速演进,引领数字经济蓬勃发展,对各国科技、经济、社会等产生深远影响,已成为驱动新一轮科技革命和产业变革的重要力量。近年来,各国政府及相关组织持续加强人工智能战略布局,以人工智能为核心的集成化技术创新成为重点,人工智能相关技术产业化和商业化进程不断提速,正在加快与千行百业深度融合,其“头雁”效应得以充分发挥。此外,全球高度关注人工智能治理工作,发展安全可信人工智能已成为全球共识。
一人工智能的内涵与产业链
(一)人工智能的内涵
人工智能(ArtificialIntelligence)作为一门前沿交叉学科,与数学、计算机科学、控制科学、脑与认知科学、语言学等密切相关,自1956年首次提出以来,各方对其界定一直存在不同的观点。通过梳理不同研究机构和专家学者提出的相关概念,关于“人工智能”的内涵可总结如下:人工智能是指研究、模拟人类智能的理论、方法、技术及应用系统的一门技术科学,赋予机器模拟、延伸、扩展类人智能,实现会听、会看、会说、会思考、会学习、会行动等功能,本质是对人的意识和思想过程的模拟。
图1:人工智能内涵示意图
来源:火石创造根据公开资料绘制
(二)人工智能的发展历程
从1956年“人工智能”概念在达特茅斯会议上首次被提出至今,人工智能发展已经历经60余年,经历了三次发展浪潮。当前全球人工智能正处于第三次发展浪潮之中。
第一次浪潮(1956-1980年):训练机器逻辑推理能力。在1956年达特茅斯会议上,以“人工智能”概念被提出为标志,第一次发展浪潮正式掀起,该阶段的核心是:让计算机具备逻辑推理能力。这一时期内,开发出了计算机可以解决代数应用题、证明几何定理、学习和使用英语的程序,并且研发出第一款感知神经网络软件和聊天软件,这些初期的突破性进展让人工智能迎来发展史上的第一个高峰。但与此同时,受限于当时计算机的内存容量和处理速度,早期的人工智能大多是通过固定指令来执行特定问题,并不具备真正的学习能力。
第二次浪潮(1980-2006年):专家系统应用推广。1980年,以“专家系统”商业化兴起为标志,第二次发展浪潮正式掀起,该阶段的核心是:总结知识,并“教授”给计算机。这一时期内,解决特定领域问题的“专家系统”AI程序开始为全世界的公司所采纳,弥补了第一次发展浪潮中“早起人工智能大多是通过固定指令来执行特定问题”,使得AI变得实用起来,知识库系统和知识工程成为了80年代AI研究的主要方向,应用领域不断拓宽。
第三次浪潮(2006年至今):机器学习、深度学习、类脑计算提出。以2006年Hinton提出“深度学习”神经网络为标志,第三次发展浪潮正式掀起,该阶段的核心是实现从“不能用、不好用”到“可以用”的技术突破。与此前多次起落不同,第三次浪潮解决了人工智能的基础理论问题,受到互联网、云计算、5G通信、大数据等新兴技术不断崛起的影响,以及核心算法的突破、计算能力的提高和海量数据的支撑,人工智能领域的发展跨越了从科学理论与实际应用之间的“技术鸿沟”,迎来爆发式增长的新高潮。
图2:人工智能的三次发展浪潮
来源:火石创造根据公开资料绘制
(三)人工智能的产业链
人工智能产业链分为三层:基础层、技术层以及应用层。基础层涉及数据收集与运算,这是人工智能的发展基础,包括智能芯片、智能传感器、大数据与云计算等;技术层处理数据的挖掘、学习与智能处理,是连接基础层与应用层的桥梁,包括机器学习、类脑智能计算、计算机视觉、自然语言处理、智能语音、生物特征识别等;应用层是将人工智能技术与行业的融合发展的应用场景,包括智能机器人、智能终端、智慧城市、智能交通、智能制造、智能医疗、智能教育等。
图3:人工智能产业链
来源:火石创造根据公开资料绘制
二全球人工智能产业发展现状
(一)人工智能产业规模保持快速增长
近年来人工智能技术飞速发展,对人类社会的经济发展以及生产生活方式的变革产生重大影响。人工智能正全方位商业化,AI技术已在金融、医疗、制造、教育、安防等多个领域实现技术落地,应用场景也日益丰富。人工智能的广泛应用及商业化,加快推动了企业的数字化、产业链结构的优化以及信息利用效率的提升。全球范围内美国、欧盟、英国、日本、中国等国家和地区均大力支持人工智能产业发展,相关新兴应用不断落地。根据相关统计显示,全球人工智能产业规模已从2017年的6900亿美元增长至2021年的3万亿美元,并有望到2025年突破6万亿美元,2017-2025年有望以超30%的复合增长率快速增长。
图4:2017-2025年全球人工智能产业规模(单位:亿美元)
数据来源:火石创造根据公开资料整理
(二)全球主要经济体争相布局,中美两国占据领先位置
人工智能作为引领未来的战略性技术,目前全球主要经济体都将人工智能作为提升国家竞争力、维护国家安全的重大战略。美国处于全球人工智能领导者地位,中国紧随其后,欧洲的英国、德国、法国,亚洲的日本、韩国,北美的加拿大等国也具有较好的基础。从全球各国人工智能企业数量来看,美国人工智能企业数量在全球占比达到41%,中国占比为22%,英国为11%,以上三个国家的人工智能企业数量合计占到全球的七成以上。
图5:全球人工智能企业数量分布
数据来源:中国信通院,火石创造整理
(三)公共数据集不断丰富,关键平台逐步形成
全球数据流量持续快速增长,为深度学习所需要的海量数据提供良好基础。商业化数据产业发展迅速,为企业提供海量图片、语音等数据资源和相关服务。公共数据集为创新创业和行业竞争提供优质数据,也为初创企业的发展带来必不可少的资源。优势企业例如Google、亚马逊、Facebook等都加快部署机器学习、深度学习底层平台,建立产业事实标准。目前业内已有近40个各类AI学习框架,生态竞争十分激烈。中国的代表企业如科大讯飞、商汤科技利用技术优势建设开放技术平台,为开发者提供AI开发环境,建设上层应用生态。
(四)人工智能技术飞速发展,应用持续深入
近十年来,得益于深度学习等算法的突破、算力的不断提升以及海量数据的持续积累,人工智能真正大范围地从实验室研究走向产业实践。以深度学习为代表的算法爆发拉开了人工智能浪潮的序幕,在计算机视觉、智能语音、自然语言处理等领域广泛应用,相继超过人类识别水平。人工智能与云计算、大数据等支撑技术的融合不断深入,围绕着数据处理、模型训练、部署运营和安全监测等各环节的工具链不断丰富。工程化能力持续增强,人工智能的落地应用和产品交付更加便捷高效。AI在医疗、制造、自动驾驶、安防、消杀等领域的应用持续深入,特别是新冠疫情以来,社会的数字化、智能化转型不断提速,进一步推动人工智能应用迈入快车道。
三全球人工智能产业发展趋势
(一)算法、算力和数据作为人工智能产业的底层支撑,仍是全球新一代人工智能产业的核心引擎
算法、算力和数据被全球公认为是人工智能发展的三驾马车,也是推动人工智能发展的重要基础。在算力层面,单点算力持续提升,算力定制化、多元化成为重要发展趋势;计算技术围绕数据处理、数据存储、数据交互三大能力要素演进升级,类脑芯片、量子计算等方向持续探索智能芯片的技术架构由通用类芯片发展为全定制化芯片,技术创新带来的蓝海市场吸引了大量的巨头企业和初创企业进入产业。在算法层面,Cafe框架?CNTK框架等分别针对不同新兴人工智能算法模型进行收集整合,可以大幅度提高算法开发的场景适用性,人工智能算法从RNN、LSTM到CNN过渡到GAN和BERT还有GPT-3等,不断涌现的新兴学习算法将在主流机器学习算法模型库中得到更高效的实现。在数据层面,以深度学习为代表的人工智能技术需要大量的标注数据,催生了专业的技术服务,数据服务进入深度定制化阶段。
(二)全球新兴技术持续孕育涌现,以人工智能为核心的集成化技术创新成为重点
随着全球虚拟现实、超高清视频、新兴汽车电子等新技术、新产品将不断孕育涌现,并与人工智能加速交叉集成,推动生产生活方式和社会治理方式智能化变革的经济形态;与此同时,人工智能与5G、云计算、大数据、工业互联网、物联网、混合现实(MR)、量子计算、区块链、边缘计算等新一代信息技术互为支撑。这意味着以交叉融合为特征的集成化创新渐成主流,多种新兴技术交叉集成的价值将使人工智能发挥更大社会经济价值。例如:人工智能与汽车电子领域加速融合,实现感知、决策、控制等专用功能模块,推动形成自动驾驶、驾驶辅助、人车交互、服务娱乐应用系统;人工智能与虚拟现实技术相结合,为生产制造、家装等提供工具,并为虚拟制造、智能驾驶、模拟医疗、教育培训、影视娱乐等提供场景丰富、互动及时的平台环境等。
(三)新基建春风与场景赋能双轮驱动,全球泛在智能时代加速来临
在新冠肺炎疫情成为全球发展“新常态”背景下,全球主要经济体均面临经济社会创新发展和转型升级挑战,对人工智能的运用需求愈加迫切,纷纷推动人工智能与实体经济加速融合,助力实现新常态下产业转型升级。一方面,全球大力布局智能化基础设施建设和传统基础设施智能化升级,推动网络泛在、数据泛在和应用需求泛在的万物互联生态加速实现,为人工智能的应用场景向更多行业、更多领域、更多环节、更多层面拓展奠定基础;另一方面,AI应用场景建设成为国内外关注和紧抓的关键举措,面向医疗健康、金融、供应链交通、制造、家居、轨道交通等重点应用领域,积极构建符合本地优势和发展特点的人工智能深度应用场景,探索智能制造、智能物流、智能农业、智慧旅游、智能医疗、智慧城市等模式创新和业态创新,同时典型场景建设也吸引了全球资本市场的重点关注,泛在化智能经济发展时代即将到来。
(四)全球高度关注人工智能治理工作,发展安全可信人工智能已成为全球共识
随着全球人工智能发展步入蓬勃发展阶段,人工智能深入赋能引发的挑战与风险广受关注,并在全球范围内掀起了人工治理浪潮。2019年6月,二十国集团(G20)批准了倡导人工智能使用和研发“尊重法律原则、人权和民主价值观”的《G20人工智能原则》,成为人工智能治理方面的首个政府间国际公约,发展安全可信的人工智能已经成为全球共识。此后,全球各国纷纷加速完善人工智能治理相关规则体系,聚焦自动驾驶、智慧医疗和人脸识别等重点领域出台分级分类的监管措施,推动人工治理从以“软法”为导向的社会规范体系,向以“硬法”为保障的风险防控制度体系转变。与此同时,面向人工智能治理体系建设和打造安全可信生态的相关需求,围绕着安全性、稳定性、可解释性、隐私保护、公平性等方面的可信人工智能研究持续升温,其理念逐步贯彻到人工智能的全生命周期之中,基于模糊理论的相关测试技术、AI结合隐私计算技术、引入公平决策量化指标的算法模型等新技术陆续涌现,产业实践不断丰富,已经演变为落实人工智能治理相关要求的重要方法论。
原文标题 : 全球视野下人工智能产业发展现状与四大趋势
人工智能生成内容(AIGC)白皮书(2023年)
一、人工智能生成内容的发展历程与概念
(一)AIGC历史沿革
(二)AIGC的概念与内涵
二、人工智能生成内容的技术体系及其演进方向
(一)AIGC技术升级步入深化阶段
(二)AIGC大模型架构潜力凸显
(三)AIGC技术演化出三大前沿能力
三、人工智能生成内容的应用场景
(一)AIGC+传媒:人机协同生产,推动媒体融合
(二)AIGC+电商:推进虚实交融,营造沉浸体验
(三)AIGC+影视:拓展创作空间,提升作品质量
(四)AIGC+娱乐:扩展辐射边界,获得发展动能
(五)AIGC+其他:推进数实融合,加快产业升级
四、人工智能生成内容发展面临的问题
五、发展建议与展望
(一)发展建议
(二)未来展望
人工智能促进教育变革创新
通过云平台布置电子作业,利用数据分析课堂上学生学习行为,推进学校管理流程迈向数字化……前不久,2022国际人工智能与教育会议在线上举行,来自全球数十个国家的政府官员、专家学者、一线教师、企业代表等相聚“云端”,畅叙人工智能时代教育发展图景。
作为引领新一轮科技革命和产业变革的重要驱动力,人工智能催生了大批新产品、新技术、新业态和新模式,也为教育现代化带来更多可能性。习近平总书记强调,“中国高度重视人工智能对教育的深刻影响,积极推动人工智能和教育深度融合,促进教育变革创新”。国务院印发的《新一代人工智能发展规划》,明确利用智能技术加快推动人才培养模式、教学方法改革;教育部出台《高等学校人工智能创新行动计划》,并先后启动两批人工智能助推教师队伍建设试点工作;中央网信办等八部门联合认定一批国家智能社会治理实验基地,包括19个教育领域特色基地,研究智能时代各种教育场景下智能治理机制;科技部等六部门联合印发通知,将智能教育纳入首批人工智能示范应用场景,探索形成可复制、可推广经验……“人工智能+教育”不断碰撞出新的火花,为教育变革创新注入强劲动能。
“人工智能+教育”,应用就在身边。音乐课上,虚拟数字人“元老师”跨越时空限制,带领多所学校学生同唱一首歌;体育课上,学生开始跳绳项目测试,智能终端上实时显示心率变化、跳绳次数、平均速度等数据。技术改变课堂,潜力无限。比如,借助虚拟现实技术,学生能够模拟穿上太空服行走在宇宙,感受浩瀚星河的魅力;通过增强现实技术体验川剧变脸,平面的课本知识变得可感可知。现实中,越来越多的学校已经开设或准备筹备人工智能教育教学活动。
“人工智能+教育”,变革教育生态。教、练、考、评、管各环节均有人工智能辅助,让教师教得更好;虚实融合多场景教学、协同育人,让学生学得更好;海量线上数据和逐渐强大的算力,让学校管理更加精准。此外,在人工智能支撑下,优质数字教育资源跨越山海,推动教育更加公平、开放。在西藏墨脱县,得益于多媒体器材配备到雅鲁藏布大峡谷深处、“智慧课堂”全覆盖,门巴族孩子小学入学率实现100%。
我国发展“人工智能+教育”具备良好基础和独特优势。比如,语音识别、视觉识别等技术世界领先;国家智慧教育平台汇集了海量的数据资源,2.91亿在校学生和1844.37万专任教师展现出丰富的应用需求;教育领域数字化基础条件全面提档升级,全国中小学(含教学点)互联网接入率达到100%,99.5%的学校拥有多媒体教室,学校配备的师生终端数量超过2800万台。也应看到,人工智能技术在教育领域的应用仍处于起步阶段。“数字鸿沟”可能将部分学生排除在智能教育之外,数据收集、使用、分析等环节存在安全隐患,相关公共政策制定较为滞后……以人工智能赋能教育现代化,这些都是需要回答好的课题。
着眼未来,应携手打造高质量、有温度的人工智能教育生态。人机协作如何更聪明,人机对话如何更友好,是“人工智能+教育”的长期课题。一方面,技术应服务育人,在让其“授业”“解惑”的同时,必须坚持教师“传道”的主体地位。另一方面,人也要理解、善用技术,努力提升信息应用能力,让人工智能更好辅助教学。教育是动态的、发展的,理性思考人与技术的关系,把握教育规律、用好技术手段、凝聚各方力量,进一步推动人工智能与教育深度融合、创新发展,才能更好赋能教育现代化,培养顺应时代发展要求的创新人才。(吴丹)
国内智能语音行业分析报告
伴随着人工智能行业的快速发展,中国在智能语音这个细分市场的发展速度也将会持续增长,但是目前国内在智能语音市场,技术已经相对成熟,且头部企业在行业的垄断力度较大。
一、智能语音简介智能语音是人工智能技术的重要组成部分,包括语音识别、语义理解、自然语言处理、语音交互等。
当前,人工智能的关键技术均以实现感知智能和认知智能为目标。语音识别、图像识别和机器人视觉、生物识别等目前最火热的领域,主要解决的是感知智能的需求,就是使得人工智能能够感知周围的世界,能够“听见”或者“看到”。
自然语言理解、智能会话、智能决策、人机交互等技术更加侧重的是认知智能的领域,解决“听懂”、“看懂”,并且根据学习到的知识对人类的要求或者周围的环境做出反应的能力。
在关键技术层中,语音识别、自然语义理解(NatureLanguageProcess,NLP)、机器学习领域的关键技术在人工智能技术当中居于重要地位,是人机交互技术的基础。
(语音交互流程图)
二、智能语音市场概况1.中国人工智能市场规模持续增长,智能语音处于重要地位通过上图我们不难发现,人工智能行业最近几年呈现出一个快速发展的态势,产业增长率平均在43%左右,属于一个快速发展的产业。2018年,人工智能市场规模达200亿元,如果按照之前的增速,预计到2019年年末,整个人工智能行业规模将达到近300亿元。
而在智能语言方面,当前人工智能产业中,智能语音是一个产业化程度相对成熟,产业规模较大的这么一个细分领域,从2011年整个市场规模只有6.3亿,到2017年整个智能语音市场规模已经超过百亿,整个行业正经历着高速的发展,预计未来几年,智能语音市场仍然会保持着较高速度快速发展。
2.智能语音技术是人工智能产业链上的关键一环上图是当前人工智能产业链的一个版图,从底层的基础设施到中间层的技术服务到最上面的行业应用,可以看到,智能语音技术在整个产业链当中,起到了一个承接的作用,将人工智能的技术底层产业化,并在智能家居、可穿戴设备、机器人等行业落地,是整个人工智能产业链中的关键一环。
3.科技巨头纷纷从不同维度布局相关产业链(1)国外科技巨头:通过并购等手段,夯实核心技术,开放应用平台,扩展以AI为核心的生态系统
谷歌:打造开发者生态链,推出GoogleHome,试图建立物联网时代安卓系统。
苹果:基于智能硬件定标准,做平台、获数据,重视物联网时代生态控制权。
(2)国内科技巨头:开放语音生态系统,以产业内合作的方式,将语音技术植入产品和或应用于相关业务场景,构建全产业生态链厂。
百度:瞄准人工智能战场,对外开放语音生态系统,对内在自身产品业务中实现AIFirst。
三、智能语音技术分析1.语音识别(ASR)
1)语音识别概述
语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言,语音识别技术就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的高技术。
语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示:
语音识别系统构建过程整体上包括两大部分:训练和识别。
训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”;
而识别过程通常是在线完成的,对用户实时的语音进行自动识别。
识别过程通常又可以分为“前端”和“后端”两大模块:
“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。目前,各语音识别方案提供方,包括讯飞、百度、云知声、思必驰等,都在提供包括麦克风阵列等硬件在内的整体解决方案,以软硬件结合的方式提高语音识别的精准度的问题。
2)语音识别技术原理
声音实际上是一种波,在开始语音识别之前,首先,需要对声音进行静音切除处理,以降低对后续步骤造成的干扰。
其次,要对声音进行分帧,把声音切成一小段一小段,每一段就是一帧,分帧操作一般不是简单的切开,而是使用移动窗函数来实现,而帧与帧之间一般是有交叠的,如下图所示:
图中,每帧的长度为25毫秒,每两帧之间有0.2S的交叠,我们一般称之为帧长2秒,帧移0.2秒。
分帧后,语音就变成了很多小段。但波形在时域上几乎没有任何描述能力,因此必须将波形作变换,常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,这个向量包含了这帧语音的内容信息,我们把这个过程叫做声学的特征提取。
至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。观察序列如下图所示,图中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。
再次,就是讲声音向量矩阵变成文本了,在这之前,有两个概念需要给大家先介绍下:
音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,而汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。状态:比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。了解了概念之后,我们就看一下语音识别是怎么把声音变成文本的,其实就和我们把大象塞进冰箱一样,也是分为三步:
把帧识别成状态(难点);把状态组合成音素;把音素组合成单词。如下图所示:
图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。
图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。
2.自然语义处理(NLP)1)自然语义处理概要
语义识别是人工智能的重要方向之一,如果语音技术相当于人的嘴巴和耳朵,负责表达和获取,那语义技术则相当于人的大脑,负责思考和信息处理,解决的是“听得懂”的问题。语义识别最大的作用是改变人机交互模式,将人机交互由最原始的鼠标、键盘交互转变为语音对话的方式。
人机交互发展史
语义识别主要基于大数据和算法模型之上搭建,是自然语言处理(NLP)技术的重要组成部分。NLP技术主要包括词法分析技术、句法分析技术、语义分析技术、语用分析技术以及语句分析技术等。NLP在实际应用中最大的困难还是语义的复杂性,随着大数据、芯片和算法模型等的发展进程加速,将为NLP带来长足的进步。
2)自然语义处理技术原理
在自然语义处理领域,也在通过深度学习的工具提升自然语义处理的准确度。目前常用的自然语义处理领域的技术包括了循环神经网络(RecurrentNeuralNetwork)、卷积神经网络(ConvolutionalNeuralNetwork)、递归神经网络(RecursiveNeuralNetwork)的原理,它们是语句语义学习的强有力工具。
普通神经网络可以完成词性标记、词语切分、实体命名识别、目的提取等一般的语义分析功能。
循环神经网络(RNN)是把一句话看成单词的序列,每个单词由一个向量表示,每一个位置上有一个中间表示,由向量组成,表示从句首到这个位置的语义。
这里假设,每一个位置的中间表示由当前位置的单词向量以及前一个位置的中间表示决定,通过一个神经网络模型化。RNN把句末的中间表示当作整个句子的语义表示。RNN加入长短期记忆(LongShortTermMemory,LSTM)机制,RNN可以处理远距离依存关系,能够更好地表示整句的语义。
卷积神经网络(CNN)是通过对句子进行扫描,抽取特征,选择特征,最后组合成句子的语义表示。
首先从左到右用一个滑动窗口对句子进行扫描,每个滑动窗口内有多个单词,每个单词由一个向量表示。在滑动窗口内,通过卷积(convolution)操作,进行特征抽取。这样,在各个位置上得到一系列特征。之后再通过最大池化(maxpooling)操作,对特征进行选择。
重复以上操作多次,得到多个向量表示,将这些向量连接起来得到整个句子的语义表示。同一卷积层内参数是共享的,也就是同一层的卷积操作是相同的,这也就保证了在局部领域进行相同的特征抽取。
ReNN是假设对语句进行句法分析,得到句法树。句法树的每个节点上有一个向量中间表示。父节点的表示由其子节点的表示决定,通过神经网络模型化,而根节点的表示就是整个句子的语义表示。句法树上的中间表示可以在句法分析的过程中得到,比如在最大间隔分析(maxmarginparsing)。
除了上述这些神经网络的算法之外,人类不断在尝试着用新的算法来试图能够为人工智能提供更加准确理解自然语言的能力。随着神经网络和深度学习的发展,自然语义处理已经取得了长足的发展,但是,由于人类语言的复杂性,对于通用人工智能阶段需要达到的自然语言理解,也存在较长的距离。
3.语音合成(TTS)1)语音合成概述
语音合成,又称文语转换(TexttoSpeech)技术,能将任意文字信息实时转化为标准流畅的语音并朗读出来,相当于给机器装上了一个嘴巴,它涉及到声学、语言学、数字信号处理、计算机科学等多个学科技术,是人工智能信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息。
语音合成和语音识别技术是实现人机语音通话所必需的两项关键技术,使机器具有类似于人一样的说话能力。
2)语音合成技术处理方式
文本处理:
这一步做的事情是把文本转化成音素序列,并标出每个音素的起止时间、频率变化等信息。
作为一个预处理步骤,它的重要性经常被忽视,但是它涉及到很多值得研究的问题,比如拼写相同但读音不同的词的区分、缩写的处理、停顿位置的确定,等等。
音素:音素(phone),是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音、辅音两大类。音节:音节在语音学上指由一个或数个音素组成的语音结构基本单位;而音素是最小的语音单位。如”普通话”,由三个音节组成,可以分析成”p,u,t,o,ng,h,u,a”八个音素。语音合成:
狭义上这一步专指根据音素序列(以及标注好的起止时间、频率变化等信息)生成语音,广义上它也可以包括文本处理的步骤。
这一步主要有三类方法:
拼接法,即从事先录制的大量语音中,选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等;为了追求合成语音的连贯性,也常常用使用双音子(从一个音素的中央到下一个音素的中央)作为单位。拼接法合成的语音质量较高,但它需要录制大量语音以保证覆盖率。参数法,即根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等),然后把这些参数转化为波形。参数法也需要事先录制语音进行训练,但它并不需要100%的覆盖率。参数法合成出的语音质量比拼接法差一些。声道模拟法。参数法利用的参数是语音信号的性质,它并不关注语音的产生过程。与此相反,声道模拟法则是建立声道的物理模型,通过这个物理模型产生波形。这种方法的理论看起来很优美,但由于语音的产生过程实在是太复杂,所以实用价值并不高。三、智能语音主要公司介绍1.图灵机器人1)公司简介
图灵机器人是一家个性化智能机器人平台,旗下有人工智能机器人操作系统TuringOS,用户可以在微博、微信、QQ机器人、语音客服、智能硬件等多个场景搭建属于自己的个性化智能机器人,截止2016,公司估值已经超过10亿人民币。
2)代表性产品介绍
乐迪:
乐迪是著名动画作品《超级飞侠》里的灵魂人物,基于图灵机器人人工智能操作系统TuringOS,让乐迪从荧屏走进消费者现实生活。
吉米猫:
吉米猫是一款手机宠物类应用游戏,从功能上来说很像是汤姆猫的升级版,但与汤姆猫不同的是吉米猫接入了图灵机器人的Chatbot接口,赋予了吉米猫聊天调侃、百科问答等语音对话能力,闲暇时还可以给你讲个段子、说个故事。
2.思必驰1)公司简介
思必驰是一家智能语音技术解决方案提供商,致力于提供自然语言人机交互解决方案,应用于智能车载、智能家居和智能机器人领域,并且拥有语音识别、语音合成、语义对话及语义唤醒等技术,截止2016年,思必驰的估值已经超过20亿人民币。
2)代表性产品介绍
智能车载解决方案:提供一体化解决方案,适用于智能后视镜、智能车机、便携式导航仪、HUD等,全称语音操作。
智能家居解决方案:软硬件一体化解决方案,为智能家居产品提供声源定位、个性唤醒、语音识别、语义理解、对话交互等功能。
3.云知声1)公司简介
云知声成立于2012年,是一家智能语音识别技术的高新技术企业,目前集AI芯、AIUI、AIService三大解决方案支撑云知声核心技术的落地,已经在家居、汽车、医疗和教育等领域有广泛应用,截止2018年,公司估值已经超过10.7亿美金。
2)代表性产品介绍
智能家居方案-UniHome:
AI芯作为智能语音解决方案芯片,用以解决不同形态智能终端感知和部分计算问题,AI芯通过多种芯片方案,合理组合不同硬件平台,安装不同系统下的AIUI版本,提供语音交互、IO控制、互联内容的能力,满足不同价位不同场景下的智能硬件交互需求。
智能车载方案-UniCar:
云端芯一体化,方案包括拾音降噪,语音交互,云端计算和内容服务一揽子解决方案,满足用户导航,电话,娱乐,咨询,社交5大场景的功能诉求。
智慧医疗方案:云知声提供医疗垂直领域录入软硬件一体的解决方案,基于医疗人工智能技术和大数据分析进行持续探索,实现智能语音交互的知识问答和病历查询,进行健康风险预测和患者分群分析。
4.出门问问
1)公司简介
出门问问是市场上一家拥有自主语音识别、语义分析、垂直搜索技术的人工智能公司;自成立以来,一直努力将人工智能技术落地到消费产品,定义下一代人机交互的方式,截止2017年,公司估值超过10亿美金。
2)代表性产品介绍
以TicWatchPro为例:
五、智能语音市场总结伴随着人工智能行业的快速发展,中国在智能语音这个细分市场的发展速度也将会持续增长,但是目前国内在智能语音市场,技术已经相对成熟,且头部企业在行业的垄断力度较大。
目前,中国智能语音市场的主要份额被科大讯飞、百度以及苹果分割,截止到2018年,中国智能语音市场,科大讯飞市场占有率排名第一,市占率达到44.2%;其次为百度,市场占有率为27.8%;排名第三的是的苹果,市占率为6.9%,排名前三的品牌在我国智能语音市场占比近八成,留给初创企业在这个市场的空间以及机会并不多。
未来随着智能语音技术的逐渐成熟,智能语音技术在教育领域会发挥出巨大的作用,比如在口语教学、考试测评、模拟练习等环节,能够代替现在很多老师的工作,大大降低人工成本。
作者:作者:阿旺,著名投资人兼连续创业者,会从自身投资以及创业经历,不定期输出各类行业研究,如您想了解更多关于创业以及投资方面的内容,欢迎关注本人公众号:awangblog
本文由@阿旺原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自Unsplash,基于CC0协议