博舍

玩人工智能的你必须知道的语音识别技术原理 人工智能与语音识别的关系是什么

玩人工智能的你必须知道的语音识别技术原理

语音识别是模式识别的一个分支,又从属于信号处理科学领域,同时与语音学、语言学、数理统计及神经生物学等学科有非常密切的关系。语音识别的目的就是让机器“听懂”人类口述的语言,包括了两方面的含义:其一是逐字逐句听懂非转化成书面语言文字;其二是对口述语言中所包含的要求或询问加以理解,做出正确响应,而不拘泥于所有词的正确转换。

自动语音识别技术有三个基本原理:首先语音信号中的语言信息是按照短时幅度谱的时间变化模式来编码;其次语音是可以阅读的,即它的声学信号可以在不考虑说话人试图传达的信息内容的情况下用数十个具有区别性的、离散的符号来表示;第三语音交互是一个认知过程,因而不能与语言的语法、语义和语用结构割裂开来。

声学模型

语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。声学建模;语言模型

搜索

连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。

系统实现

语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。

听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。

对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。

二:语音识别技术原理-工作原理解读

首先,我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如WindowsPCM文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。下图是一个波形的示例。

图中,每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。

分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。实际应用中,这一步有很多细节,声学特征也不止有MFCC这一种,具体这里不讲。

至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。观察序列如下图所示,图中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。

接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念:

音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,参见TheCMUPronouncingDiconary‎。汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调,不详述。

状态:这里理解成比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。

语音识别是怎么工作的呢?实际上一点都不神秘,无非是:

第一步,把帧识别成状态(难点)。

第二步,把状态组合成音素。

第三步,把音素组合成单词。

如下图所示:

图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。

那每帧音素对应哪个状态呢?有个容易想到的办法,看某帧对应哪个状态的概率最大,那这帧就属于哪个状态。比如下面的示意图,这帧在状态S3上的条件概率最大,因此就猜这帧属于状态S3。

那这些用到的概率从哪里读取呢?有个叫“声学模型”的东西,里面存了一大堆参数,通过这些参数,就可以知道帧和状态对应的概率。获取这一大堆参数的方法叫做“训练”,需要使用巨大数量的语音数据,训练的方法比较繁琐,这里不讲。

但这样做有一个问题:每一帧都会得到一个状态号,最后整个语音就会得到一堆乱七八糟的状态号,相邻两帧间的状态号基本都不相同。假设语音有1000帧,每帧对应1个状态,每3个状态组合成一个音素,那么大概会组合成300个音素,但这段语音其实根本没有这么多音素。如果真这么做,得到的状态号可能根本无法组合成音素。实际上,相邻帧的状态应该大多数都是相同的才合理,因为每帧很短。

解决这个问题的常用方法就是使用隐马尔可夫模型(HiddenMarkovModel,HMM)。这东西听起来好像很高深的样子,实际上用起来很简单:

第一步,构建一个状态网络。

第二步,从状态网络中寻找与声音最匹配的路径。

这样就把结果限制在预先设定的网络中,避免了刚才说到的问题,当然也带来一个局限,比如你设定的网络里只包含了“今天晴天”和“今天下雨”两个句子的状态路径,那么不管说些什么,识别出的结果必然是这两个句子中的一句。

那如果想识别任意文本呢?把这个网络搭得足够大,包含任意文本的路径就可以了。但这个网络越大,想要达到比较好的识别准确率就越难。所以要根据实际任务的需求,合理选择网络大小和结构。

搭建状态网络,是由单词级网络展开成音素网络,再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径,语音对应这条路径的概率最大,这称之为“解码”。路径搜索的算法是一种动态规划剪枝的算法,称之为Viterbi算法,用于寻找全局最优路径。

这里所说的累积概率,由三部分构成,分别是:

观察概率:每帧和每个状态对应的概率

转移概率:每个状态转移到自身或转移到下个状态的概率

语言概率:根据语言统计规律得到的概率

其中,前两种概率从声学模型中获取,最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的,可以利用某门语言本身的统计规律来帮助提升识别正确率。语言模型很重要,如果不使用语言模型,当状态网络较大时,识别出的结果基本是一团乱麻。

这样基本上语音识别过程就完成了,这就是语音识别技术的原理。

三:语音识别技术原理-语音识别系统的工作流程

一般来说,一套完整的语音识别系统其工作过程分为7步:

①对语音信号进行分析和处理,除去冗余信息。

②提取影响语音识别的关键信息和表达语言含义的特征信息。

③紧扣特征信息,用最小单元识别字词。

④按照不同语言的各自语法,依照先后次序识别字词。

⑤把前后意思当作辅助识别条件,有利于分析和识别。

⑥按照语义分析,给关键信息划分段落,取出所识别出的字词并连接起来,同时根据语句意思调整句子构成。

⑦结合语义,仔细分析上下文的相互联系,对当前正在处理的语句进行适当修正。

音识别系统基本原理框图

语音识别系统基本原理结构如图所示。语音识别原理有三点:①对语音信号中的语言信息编码是按照幅度谱的时间变化来进行;②由于语音是可以阅读的,也就是说声学信号可以在不考虑说话人说话传达的信息内容的前提下用多个具有区别性的、离散的符号来表示;③语音的交互是一个认知过程,所以绝对不能与语法、语义和用语规范等方面分裂开来。

预处理,其中就包括对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响,此外还会考虑到语音识别基本单元的选取和端点检测问题。反复训练是在识别之前通过让说话人多次重复语音,从原始语音信号样本中去除冗余信息,保留关键信息,再按照一定规则对数据加以整理,构成模式库。再者是模式匹配,它是整个语音识别系统的核心部分,是根据一定规则以及计算输入特征与库存模式之间的相似度,进而判断出输入语音的意思。

前端处理,先对原始语音信号进行处理,再进行特征提取,消除噪声和不同说话人的发音差异带来的影响,使处理后的信号能够更完整地反映语音的本质特征提取,消除噪声和不同说话人的发音差异带来的影响,使处理后的信号能够更完整地反映语音的本质特征。

四:语音识别技术原理-发展历程

早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的“RadioRex”玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(ColledgeofLondon)的Denes已经将语法概率加入语音识别中。

1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码LinearPredicveCoding(LPC),及动态时间弯折DynamicTimeWarp技术。

语音识别技术的最重大突破是隐含马尔科夫模型HiddenMarkovModel的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。

实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。

这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。

20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台,Microsoft的Whisper,Sun的VoiceTone等。返回搜狐,查看更多

AI时代,关于人工智能你需要知道的一切

AI似乎正渗透至现代生活中的每个角落,从音乐到媒体,再到商业/生产力乃至私人约会。要想在这个快速发展的时代跟上节奏,每个人都有必要留点时间认真了解关于人工智能的一切。

人工智能,也称机器学习,是一种开创于几十年前、基于神经网络的软件系统。随着近来新型算力的迅猛发展,AI终于获得了高效可靠的语音和图像识别能力,甚至掌握了生成图像和语音的诀窍。研究人员如今正努力借AI之手,帮助用户轻松总结网页内容、订购商品、调整食谱。

那机器会不会就此爆发,迅速脱离人类的掌控?!先别急,后文会认真讨论这个问题。相比之下,我们更希望读过本文,大家都能把握当前AI的发展动向。

AI基础知识

关于AI最有趣的事实在于:尽管其核心概念早在50多年前就已经诞生,但直到现在也没有多少技术专家真正熟悉个中原理。因此如果大家感到迷茫,请不必担心——其他人也差不多。

这里我们要先强调一点:虽然名叫“人工智能”,但这个词本身其实并不准确。智能还没有统一定义,而且AI系统的行为更接近计算机、而非人类大脑。只是这个计算机的输入和输出更加灵活,能在一定程度上模仿智能的表现。

下面来看看AI讨论中经常用到的基本术语。

神经网络(Neuralnetwork)

人类大脑主要由名为“神经元”的相互连接的细胞组成,它们相互啮合,形成可执行任务并存储信息的复杂网络。自1960年代以来,人们一直希望在软件当中重建这套惊人的认知系统,但直到最近的15到20年,GPU的发展成熟才让数字定义的神经网络迎来蓬勃发展,可谓是算力出奇迹的典型案例。

从本质上讲,神经网络就是大量点和线的组合:点代表数据,线则是各数值间的统计关系。

如同人脑一样,这一基本原理能够建立起多功能系统:快速接收输入,再通过网络传递并生成输出。这样一套系统,被称为“模型”。

模型(Model)

模型是指能接收输入并返回输出的具体代码的集合。之所以选择“模型”这个词,是想体现与统计模型、或者能模拟复杂自然过程的建模系统之间的相似性。在AI领域,模型可以指代ChatGPT这类完整系统,也可以是几乎一切AI或机器学习结构,目的和功能不限。模型的体量各有不同,其规模代表着占用的存储空间和运行起来需要消耗何等程度的算力。而实际体量,则由模型的训练方式所决定。

训练(Training)

要创建AI模型,先要向构成系统基础的神经网络“投喂”数据集或语料库所承载的大量信息。在此过程中,庞大的网络会创建起该数据的统计表征。训练过程也是计算密度最高的环节,往往需要在大规模高性能计算机上运行几周甚至几个月时间。这不仅是因为网络本身非常复杂,也是因为数据集规模往往极为庞大:须分析数十亿个单词或图像,并在巨大的统计模型中得到表征。但在模型完成训练之后,研究人员可以想办法对其“瘦身”,运行时的资源要求也更低——这就是所谓推理过程。

推理(Inference)

推理,就是模型实际发挥作用的过程:领先对现有证据进行推理以得出结论。当然,这跟我们人类的“推理”不同,AI模型是在统计学意义上将摄取到的各个数据点联系起来,据此预测出下一个点的位置。例如,假定要求其“补全以下序列:红色、橙色、黄色……”它就会意识到这些词跟所摄取的某一列表相匹配,也就是彩虹的颜色分布,再由此推理并补全列表中的其余部分。推理消耗的计算成本通常比训练低得多:毕竟查询目录也要比整理目录简单得多。虽然某些大模型还是得靠超级计算机加GPU才能执行推理,但也有不少小模已经能运行在智能手机甚至配置更低的设备之上。

生成式AI(GenerativeAI)

今时今日,人人都在讨论生成式AI。这是个广义术语,指那些能够生成原始输出(如图像和文本)的AI模型。某些模型能做总结,有些能做整理,有些能做识别——但至少目前最炙手可热的选手,还是那些能“凭空”生成新内容的AI模型(究竟是不是真的凭空,目前还存在争议)。但请千万记住,AI生成的结果可并不一定就是正确的,甚至根本是在胡说八道!一切完全可能是神经网络的胡思乱想,包括那些绘声绘色的故事或者栩栩如生的画作。

AI热门词汇

讲罢基础知识,咱们再来看看2023年比较热门的AI词汇。

大语言模型(Largelanguagemodel,LLM)

大语言模型已经成为当前最具影响力、用途最广泛的AI形式,几乎所有构成网络的文本和英语文学素材都被纳入训练范畴。由此训练出的,就是一套体量巨大的基础模型。大语言模型能够以自然语言交谈并回答问题,模仿各种风格的类型的书面文件,ChatGPT、Claude和LLaMa等成果都已经证明了其强大能力。尽管这些模型的表现令人印象深刻,但请注意其本质上仍属于模式识别引擎——在回答问题时,它实际是在补全识别出的模式,却无法判断该模式是否与事实相符。LLM在回答问题时经常产生“幻觉”,后文将进一步扩展延伸。

基础模型(Foundationmodel)

在巨大的数据集之上从零开始训练巨型模型,无疑是个昂贵且复杂的过程,当然应该能免则免。基础模型属于从零开始训练出的大模型,需要超级计算机才能承载得起;但我们通常可以减少其中的参数量,以精简方式使其适应更小的承载。所谓参数,也就是我们前文提到的模型中待处理的“点”的数量,目前常见的大语言模型往往拥有百万、十亿甚至是万亿级参数。

微调(Finetuning)

GPT-4这类基础模型非常聪明,但在设计上只能算是“通才”。从文学名著到奇幻故事,它都有所涉猎。可如果想让它帮助整理一封求职信用的简历,其表现甚至还不如普通中学生。好在我们可以使用专门的数据集对模型做点额外训练,这个过程就是模型微调。比如我们可以从网上搜集几千份求职申请,在“投喂”之后模型终于理解了简历的套路所在,同时又不影响它在原始训练数据中掌握的其他知识。

另外还有人类反馈强化学习(RLHF),这是一种特殊的微调方法,通过人类与LLM的交互数据来提高模型的沟通技巧。

扩散(Diffusion)

图像生成可以通过多种方式实现,但迄今为止最成功的办法还是“扩散”技术。StableDiffusion、Midjourney等流行的生成式AI核心成果都是据此发展而来。在通过展示图像来训练扩散模型时,这些图像会在添加数字噪声的过程中逐渐退化,直至原始图像荡然无存。通过观察整个过程,扩散模型能学会如何反向执行整个过程,逐渐向纯噪声中添加细节以构成预定义的任意图像。其实在图像生成领域我们已经探索出了更新、更好的实现方法,但扩散技术仍然比较可靠且相对容易理解,所以相信还会有不小的应用空间。

幻觉(Hallucination)

最初的“幻觉”概念,是指模型在输出中夹杂着与输入完全无关内容的情况。例如因为训练素材中包含大量狗的元素,所以模型偶尔会用狗作为纹理贴到建筑物上。根据猜测,如今AI所产生的幻觉主要源自训练集中缺乏足够数据、或者数据内容间相互冲突,于是它只能编造出一些似是而非的结论。

“幻觉”的存在有好处也有弊端:利用幻觉可以引导AI生成原创或更加多样的衍生艺术成果。但如果需要就事实获取明确的答案,幻觉肯定是个大麻烦——模型会一本正经地胡说八道,让不熟悉实情的用户误信为真。目前除了手动检查之外,还没有什么简单方法来判断AI输出是真是假,毕竟模型本身根本就没有“真假”的概念,只是在努力补全自己识别出的“疑似”模式。

通用人工智能(ArtificialGeneralIntelligence,AGI)

通用人工智能,又称强人工智能(StrongAI),其实并没有明确的概念定义。用最简单的话语来解释,这是一种足够强大的智能,不仅能够替人类完成很多工作,甚至能像人类一样自我学习和改进。有人担心这种学习、整合思维,然后加快学习和成长速度的循环将恒久持续,最终造就一套无法约束或控制的超级智能系统。甚至有人认为应该叫停相关研究,暂缓或阻止这种可怕的未来。

看过《黑客帝国》或者《终结者》电影的朋友肯定能理解其中的担忧,毕竟AI失控并试图消灭或奴役人类的可能性确实令人不寒而栗。但这些故事纯属编剧想象,跟现实并没什么关系。ChatGPT等成果虽然能给人留下深刻印象,但在抽象推理和动态多领域活动方面与“真正的智能”几乎没有半毛钱关系。我们尚无法断言AI未来会如何发展,但暂时不妨将AGI理解成星际旅行——人人都能把握其概念并朝着这个方向努力,可目标本身仍然遥不可及。其间需要巨大的资源投入和基础科学的飞跃式进步,绝非一夜之间便可成真。

评论人士也在反复强调,“杞人忧天”式的探讨缺乏现实意义。毕竟AI如今表现出的真正威胁,反而源自其局限性和“智障”表现。虽然没人想让天网成真,但如果不能在AI初期解决好自动化消灭工作岗位的现实问题,我们哪还有机会被T-1000满街追杀?

AI主要玩家

OpenAI

要说如今的AI领域最赫赫有名的“门派”,无疑是以OpenAI为首。顾名思义,OpenAI强调把自己的研究成果对外分享。但在有所斩获之后,OpenAI决意重组为一家更传统的营利性公司,通过API和应用软件向用户开放ChatGPT等高级语言模型的访问服务。这家公司的掌门人是SamAltman,尽管靠技术突破赚得盆满钵满,但他本人还是对AI可能引发的风险发出了警告。OpenAI是大语言模型领域的领导者,在其他方向上也有探索。

微软

微软其实也在AI研究方面做出过不少贡献,但因为种种原因没能真正将实验成果转化成现实产品。但其最明智的举动就是早期投资了OpenAI,并与后者建立起长期合作伙伴关系。微软目前已经在Bing搜索引擎上引入ChatGPT功能。尽管微软的AI贡献相对有限且难以直接使用,但其研发实力仍旧不容小觑。

谷歌

想靠“登月计划”引领AI技术革命的谷歌,不知何故没能摘取最后的胜利果实。但必须承认,谷歌研究人员的发明为如今AI的全面爆发奠定了基础,这就是tarnsformer。如今,谷歌正努力开发自己的大语言模型和其他智能体。在过去十年浪费大量时间和金钱推动AI助手无果之后,谷歌正在迎头赶上。公司CEOSundarPichai多次表示,公司将在搜索和生产力方面牢牢守住以AI为中心的发展理念。

Anthropic

在OpenAI“背叛”开源社区之后,Dario和DanielaAmodei兄妹毅然出走并创立了Anthropic,希望打造一个开放且更具道德责任感的AI研究组织。凭借充裕的资金,他们发展成为OpenAI的有力竞争对手,只是其Claude模型暂时还无法在人气和知名度上与GPT匹敌。

Stability

虽有巨大争议,但Stability仍在AI浪潮中拥有自己的一席之地。他们正收集互联网上的各种内容,并以开放硬件的方式免费提供其生成式AI模型。这既符合“信息应免费”的理念,也让项目本身蒙上了一层道德阴影。很多人认为Stability的成果被用于生成色情图像,及未经同意使用知识产权。

埃隆·马斯克

长期以来,马斯克经常直言不讳地表达自己对于AI失控的担忧。他曾在早期支持过OpenAI,但不满于该公司朝着自己不支持的方向发展。虽然马斯克并不算是AI技术专家,但他夸张的表达和评论确实引发了广泛反响(他本人还在“暂停AI研究”倡议书上签了字),而且正着手建立自己的AI研究机构。

2023年人工智能行业研究报告

第一章行业概况1.1定义和分类

人工智能(ArtificialIntelligence,AI)是一个广泛的计算机科学分支,它致力于创建和应用智能机器。在更深入的层次上,人工智能可以被理解为以下几个方面:

学习和适应:人工智能系统需要具有学习和适应的能力。这意味着这些系统能从数据中学习,并在新的、未曾见过的情况下,根据所学到的知识做出适应性的反应。

理解和解析:人工智能系统需要有能力理解和解析其所处的环境。这可能包括理解语言,识别图像,或者理解复杂的模式和关系。

决策和行动:人工智能系统需要能够基于其理解和学习,做出决策并采取行动。这可能包括自动驾驶汽车的导航决策,或者聊天机器人产生回应的决策。

自我改进:人工智能系统需要有能力进行自我改进。这意味着系统能够根据其性能的反馈,调整其行为以提高未来的性能。

人工智能可以按照不同的标准进行分类。以下是一些常见的分类方式:

(1)按照功能分类:

弱人工智能(NarrowAI):这类人工智能系统专门针对某一特定任务进行优化,例如语音识别或图像识别。它们只能在特定领域内表现出人类级别的智能。

强人工智能(GeneralAI):强人工智能系统能够执行任何人类智能能够执行的任务,理论上它们能够理解、学习、适应并执行任何一种可以由人类大脑完成的认知任务。

超人工智能:各个领域超越人类,创新创造领域超越人类,解决人类无法解决的问题。

当前,人工智能的发展仍处于“弱”人工智能阶段,只具备在特定领域模拟人类的能力,“工具性”仍是该阶段主要特点,同全面模拟或者超越人类能力的强人工智能、超人工智能差距巨大。

图智能的构成以及人工智能分级

资料来源:资产信息网千际投行平安证券研究所

(2)按照技术分类:

机器学习(MachineLearning):机器学习是一种让计算机系统从数据中学习的方法。机器学习算法使用统计学习理论,从输入数据中找到并学习潜在的模式。

深度学习(DeepLearning):深度学习是机器学习的一个子领域,使用神经网络模拟人脑神经元的工作方式,从复杂的、大量的数据中进行学习。

自然语言处理(NaturalLanguageProcessing):自然语言处理是计算机用来理解、解析和生成人类语言的技术。

计算机视觉(ComputerVision):计算机视觉是让计算机和机器能够“看到”和理解视觉信息的技术。

以上就是人工智能的一些主要分类,它们不同的特性和应用场景使得人工智能在各个领域都有广泛的应用。

1.2发展历程

人工智能的历史已有七十余年的长河,其脉络可追溯到上世纪初的岁月。如今,AI已然深入到我们生活的每个角落,无论是医疗保健、汽车产业、金融业、游戏产业、环境监测、农业、体育、能源管理,还是安全领域,大量的AI应用都正在彻底改变我们的生活方式、工作习惯以及娱乐模式。这些技术的持续进步预示着第四次工业革命的到来。

(1)萌芽1900-1956

1900年,希尔伯特在数学家大会上宣布了23个未解决的问题,其中第二和第十个问题与人工智能密切相关,最终促进了计算机的发明。1954年,冯-诺依曼完成了早期计算机EDVAC的设计,并提出了“冯-诺依曼架构”。图灵、哥德尔、冯-诺依曼、维纳、克劳德-香农和其他的先驱者奠定了人工智能和计算机技术的基础。

(2)黄金时代1956-1974

1965年,麦卡锡、明斯基等科学家召开“达特茅斯会议”,首次提出“人工智能(AI)”的概念,标志着人工智能学科的诞生。随后,人工智能研究进入了20年的黄金时代,取得了一批令人瞩目的研究成果,如机器定理证明和跳棋程序,掀起了人工智能发展的第一个高潮。

在这个黄金时代,约翰-麦卡锡开发了LISP语音,成为此后几十年人工智能领域最主要的编程语言;马文-明斯基对神经网络有了更深入的研究,也发现了简单神经网络的缺点;接着开始出现多层神经网络和反向传播算法。

(3)第一次寒冬1974-1980

人工智能发展的最初突破极大地提高了人们的期望,使人们高估了科技发展的速度。然而,连续的失败和预期目标的落空使人工智能的发展进入低谷。

1973年,赖特-希尔关于人工智能的报告,拉开了人工智能冬天的序幕。此后,科学界对人工智能进行了一轮深入的拷问,使人工智能受到了严厉的批评和对其实用价值的质疑。随后,政府和机构也停止或减少了资助,人工智能在20世纪70年代陷入了它的第一个冬天。

有限的计算能力和大量常识性数据的缺乏使发展陷入瓶颈,尤其是过度依赖计算能力和经验数据量的神经网络技术,在很长一段时间内没有取得实质性的进展。

(4)应用发展1980-1987

专家系统模拟人类专家的知识和经验来解决特定领域的问题,实现了人工智能从理论研究到实际应用的重大突破。专家系统在医学、化学、地质学等领域的成功,将人工智能推向了应用发展的新高潮,1980年XCON在卡内基梅隆大学(CMU)正式启动,成为专家系统开始在特定领域发挥作用的里程碑,推动了整个人工智能技术进入繁荣阶段。

经过十年的沉寂,神经网络有了新的研究进展,并发现了具有学习能力的神经网络算法,这使得神经网络的发展在20世纪90年代后期一路走向商业化,被应用于文字图像识别和语音识别。

(5)第二次寒冬1987-1993

随着人工智能应用规模的不断扩大,应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、与现有专家系统数据库难以兼容等问题逐渐暴露出来。当时的人工智能领域主要使用约翰-麦卡锡的LISP编程语言。LISP机的逐步发展被蓬勃发展的个人电脑打败了,专用LISP机的硬件销售市场严重崩溃,人工智能领域再次进入寒冬。

硬件市场的崩溃和理论研究的混乱,再加上政府和机构纷纷停止对人工智能研究领域的资金投入,导致人工智能领域几年来一直处于低迷状态。但另一方面在理论方法的研究上也取得了一些成果。

1988年,美国科学家朱迪亚-皮尔将概率统计方法引入人工智能的推理过程;IBM的沃森研究中心将概率统计方法引入到人工智能的语言处理中;1992年,李开复利用统计方法设计开发了世界上第一个独立于扬声器的连续语音识别程序;1989年,AT&T贝尔实验室的亚恩-莱坤和团队将卷积神经网络技术应用在了人工智能的手写数字图像识别中。

(6)稳步发展1993-2011

人工智能的创新研究因网络技术的发展而加速,尤其是互联网的发展,使人工智能技术进一步实用化。

1995年,理查德-华莱士开发了新的聊天机器人程序Alice,它能够利用互联网不断增加自己的数据集并优化内容。

1997年,IMB的计算机Deepblue深蓝击败了世界象棋冠军卡斯帕罗夫。德国科学家霍克赖特和施米德赫伯提出了LSTM递归神经网络,至今仍被用于手写识别和语音识别,对后来的人工智能研究产生了深远影响。

2004年,美国神经科学家杰夫·霍金斯出版了《人工智能的未来》,2006年,杰弗里辛顿出版了《学习多层表征》,为神经网络奠定了一个新的架构,对未来人工智能中的深度学习的研究产生了深刻影响。

(7)深化阶段2012-至今

随着移动互联网技术和云计算技术的爆发,积累了难以想象的数据量,为人工智能的后续发展提供了足够的素材和动力,以深度神经网络为代表的人工智能技术的快速发展,大大跨越了科学与应用之间的“技术鸿沟”,迎来了爆发式增长。

2012年,多伦多大学在ImageNet视觉识别挑战赛上设计的深度卷积神经网络算法,被认为是深度学习革命的开始。

2014年,IanGoodfellow提出了GANs生成式对抗网络算法,这是一种用于无监督学习的人工网络。这是一种用于无监督学习的人工智能算法,由生成网络和评估网络组成,这种方法很快被人工智能的许多技术领域所采用。

2016年和2017年,谷歌推出的人工智能程序AlphaGo连续击败了前围棋世界冠军韩国的李世石,以及现任围棋世界冠军中国的柯洁,引起了巨大轰动。同时语音识别、图像识别、无人驾驶等技术不断进步。

2022年11月,OpenAI推出其开发的一个人工智慧聊天机器人程序ChatGPT。该程序使用基于GPT-3.5架构的大型语言模型并通过强化学习进行训练,成为AIGC现象级应用。

在2023年3月,OpenAI又推出了ChatGPT的升级版——GPT-4,迭代速度极快。其包含的重大升级是支持图像和文本的输入,并且在GPT-3原来欠缺的专业和学术能力上得到重大突破,它通过了美国律师法律考试,并且打败了90%的应试者。在各种类型考试中,GPT-4的表现都优于GPT-3。

1.3市场现状

全球AI产业规模预计2030年将达到1500亿,未来8年复合增速约40%。目前全球人工智能企业的数量迅速增长,2022年,全球人工智能(AI)市场规模估计为197.8亿美元,预计到2030年将达到1591.03亿美元,从2022年到2030年,复合年增长率为38.1%。

图人工智能全球市场规模预测

资料来源:资产信息网千际投行PrecedenceResearch

2022年中国人工智能产业规模达1958亿元,年增长率7.8%,整体稳健增长。而从应用格局来看,机器视觉、智能语音和自然语言处理是中国人工智能市场规模最大的三个应用方向。根据清华大学数据显示,三者占比分别为34.9%、24.8%和21%。一方面,政策推动下国内应用场景不断开放,各行业积累的大量数据为技术落地和优化提供了基础条件。另一方面,以百度、阿里、腾讯和华为为代表的头部互联网和科技企业加快在三大核心技术领域布局,同时一系列创新型独角兽企业在垂直领域快速发展,庞大的商业化潜力推动核心技术创新。

图中国人工智能产业规模

资料来源:资产信息网千际投行艾瑞咨询

第二章商业模式和技术发展2.1产业链

人工智能产业链主要分为基础层、技术层、应用层三个层级:

基础层以数据、算力、算法为核心;

技术层是建立在基础层的核心能力之上,通过打造一套人工智能系统使机器能够像人类一样进行感知与分析,其中最关键的领域包括计算机视觉(图像识别与分析)、语音识别与自然语言处理技术(语音识别与合成)、机器学习与深度学习(分析决策及行动)等;

应用层是将技术能力与具体场景相融合,帮助企业/城市管理者等客户降本增效,目前主要应用的场景有泛安防、金融、医疗、自动驾驶等领域。

在上述三个层级之外,通常面向终端时还涉及硬件交付,如摄像头、服务器、芯片等,所以人工智能产业链涉及业务方众多。

图:产业链

资料来源:资产信息网千际投行招商银行

上游

人工智能基础层是支撑各类人工智能应用开发与运行的资源平台,主要包括数据资源、硬件设置和计算力三大要素。

人工智能基础层主要包括智能计算集群、智能模型敏捷开发工具、数据基础服务与治理平台三个板块。

智能计算集群:提供支持AI模型开发、训练或推理的算力资源,包括系统级AI芯片和异构智能计算服务器,以及下游的人工智能计算中心等;

智能模型敏捷开发工具:主要实现AI应用模型的生产,包括开源算法框架,提供语音、图像等AI技术能力调用的AI开放平台和AI应用模型效率化生产平台;

数据基础服务与治理平台:实现应用所需的数据资源生产与治理,提供AI基础数据服务及面向AI的数据治理平台。

AI基础层企业通过提供AI算力、开发工具或数据资源助力人工智能应用在各行业领域、各应用场景落地,支撑人工智能产业健康稳定发展。

图:人工智能基础层分类

资料来源:资产信息网千际投行

通用计算芯片CPU、GPU全球市场基本被Intel、Nvidia等美国芯片厂商垄断,技术与专利壁垒较高,卡脖子现象严重。华为麒麟、巴龙、昇腾及鲲鹏四大芯片有望突破此壁垒。未来几年,全球各大芯片企业、互联网巨头、初创企业都将成为该市场的主要玩家。

图中国及全球人工智能基础层产业规模及年增长率

资料来源:资产信息网千际投行中国电子学会

计算力指数国家排名中美国列国家计算力指数排名第一,坐拥全球最多超大规模数据中心,这是美国算力的基础保障。中国列第二,AI算力领跑全球。日本、德国、英国分别位列第三至第五名。

计算平台方面,全球市场被亚马逊、谷歌、阿里、腾讯、华为等公司基本垄断,但小公司的计算平台凭借价格优势仍有生存空间。

中游

技术层作为人工智能产业的核心,主要依托基础层的运算平台和海量数据资源进行识别训练和机器学习建模,以开发面向不同领域的应用技术,对应用层的产品智能化程度起着决定性作用。根据技术层级分为通用技术层、AI软件框架层和算法模型层。

算法作为人工智能技术的引擎,主要用于计算、数据分析和自动推理。当前最为主流的基础算法是深度学习算法,深度学习可以从大量数据中自动总结规律,并使其适应自身结构,从而应用到案例中。随着基础算法的成熟和稳定,算法发展重点转向工程实现——软件框架,很多企业开始转向建设算法模型工具库,将算法封装为软件框架,提供给开发者使用。

图中国及全球人工智能技术层产业规模及年增长率

资料来源:资产信息网千际投行中国电子学会

目前美国是该领域发展水平最高的国家,以谷歌、Facebook、IBM和微软为主的科技巨头均将人工智能的重点布局在算法理论和软件框架等门槛高的技术之上。而我国基础理论体系尚不成熟,鲜有拥有针对算法的开放平台,百度的Paddle-Paddle、腾讯的Angle等国内企业的算法框架尚无法与国际主流产品竞争。

下游

应用层是基于技术层的能力,去解决具体现实生活中的问题。比如利用计算机视觉技术,实现金融、安防等多个领域的人脸识别;利用智能语音技术,实现智能音箱、录音笔等的语音识别;利用自然语言处理技术,用于智能客服的问答。

图全球及中国应用层产业规模及增速

资料来源:资产信息网千际投行中国电子学会

在实际的应用中,技术层和应用层的关系是相互交叉的,某个领域的应用可能用到多个维度的技术层的能力,比如金融行业的应用对于智能语音、计算机视觉、自然语言处理技术都会有需求;同样某个技术层的能力也可以广泛应用到多个不同的应用领域,比如计算机视觉技术可以广泛应用到金融、安防、医疗、交通、教育等多个维度。

2.2商业模式

人工智能相关产业大概分为五类:销售智能设备、提供智能服务、智能平台变现、智能软件授权以及智能项目整合。不同的商业领域决定AI技术的变现能力,根据五类产业内容又可分为计算能力、数据、算法框架、应用平台和解决方案六类商业领域,其进入壁垒、演化路径与短期长期价值各不相同。

图:人工智能常见五种商业模式

资料来源:资产信息网千际投行

目前,国内外的中大型厂商都已经初步形成了各自不同的核心竞争力,依据五大类人工智能商业内容呈现出的最终形式大致可以分为以下三类公司。

人工智能创业公司:主要是依靠其对于某一垂直领域的技术研发或渠道优势,通过销售相关技术产品设备或服务获得盈利。人工智能领域创业的技术门槛较高,一旦成功产业化,则竞争压力相对较小。商业模式相对比较传统,在获得市场关注和盈利前,需要投资人在人才与研发环节持续投入。而获得源源不断的融资也靠创始人的声誉背书,因此这类企业短时间内的收入模型和盈利模式比较模糊。

人工智能平台:大型人工智能科技公司一般布局都在基础功能平台服务上,如大数据、云计算平台。现在越来越多的巨头也把资源投入到了AI领域,如微软旗下成熟的AI平台。大型科技巨头公司将主要精力花在布局基础设施上,且大型人工智能平台主要都是靠应用程序接口(API)来盈利,调用的API次数越多,收费越高。而在调用这些API的同时,用户通常还会涉及其他服务,如服务器、虚拟机、数据库等,这也将为企业盈利带来新的增长点。

人工智能咨询与定制服务:主要根据企业和客户的需求进行定制化的人工智能解决方案。现阶段,人工智能方案对于传统制造与服务类企业来说,规模化应用及成本控制难度较大。但随着未来AI技术的发展,与人工智能服务相关的产品成本必将下降,中小型企业也可以负担并愿意进行智能升级改造。

AI咨询与定制服务的商业模式较为独特,目前大致有以下两种模式:

成熟的AI专利应用,如开发一个独家专利的人工智能解决方案产品,并出售给下游用户,其产品可标准化、规模化量产。

客户定制化服务,比如为某家公司客户进行产品定制服务,服务的归属权归客户所有,服务公司无权转卖,此类定制服务价格较高,竞争能力强。

2.3专利申请量

专利申请量是衡量人工智能技术创新能力和发展潜质的核心要素。在全球范围内,人工智能专利申请主要来源于中国、美国和日本。2000年至2018年间,中美日三国AI专利申请量占全球总申请量的73.95%。中国虽在AI领域起步较晚,但自2010年起,专利产出量首超美国,并长期雄踞申请量首位。

从专利申请领域来看,深度学习、语音识别、人脸识别和机器人等热门领域均成为各国重点布局领域。其中,美国几乎全领域领跑,而中国在语音识别(中文语音识别正确率世界第一)、文本挖掘、云计算领域优势明显。具体来看,多数国内专利于AI科技热潮兴起后申请,并集中在应用端(如智能搜索、智能推荐),而AI芯片、基础算法等关键领域和前沿领域专利技术主要仍被美国掌握。由此反映出中国AI发展存在基础不牢,存在表面繁荣的结构性不均衡问题。

从专利权人分布来看,中国高校和科研机构创新占据主导地位,或导致理论、技术和产业割断的市场格局。欧美日人工智能申请人集中在企业,IBM、微软、三星等巨头企业已构建了相对成熟的研发体系和策略,成为专利申请量最多的专利人之一。其中,IBM拥有专利数量全球遥遥领先。而中国是全球唯一的大学和研究机构AI专利申请高于企业的国家。由于高校与企业定位与利益追求本质上存在差异,国内技术创新与市场需求是否有效结合的问题值得关注。

图AI领域主要专利权人分布

资料来源:资产信息网千际投行Derwent

通过对国内人工智能行业的各个专利申请人的专利数量进行统计,排名前列的公司依次为:中兴通讯、京东方A、四川长虹、视源股份、海康威视、浪潮信息、大华股份、航天信息等。

图国内人工智能行业专利数量Top10

资料来源:资产信息网千际投行iFinD

中国AI专利质量参差不齐,海外市场布局仍有欠缺。尽管中国专利申请量远超美国,但技术“多而不强,专而不优”问题亟待调整。其一,中国AI专利国内为主,高质量PCT数量较少。

PCT(PatentCooperationTreaty)是由WIPO进行管理,在全球范围内保护专利发明者的条约。PCT通常被为是具有较高的技术价值。据中国专利保护协会统计,美国PCT申请量占全球的41%,国际应用广泛。而中国PCT数量(2568件)相对较少,仅为美国PCT申请量的1/4。

目前,我国AI技术尚未形成规模性技术输出,国际市场布局欠缺;其二,中国实用新型专利占比高,专利废弃比例大。我国专利类别包括发明、实用新型专利和外观设计三类,技术难度依次降低。中国拥有AI专利中较多为门槛低的实用新型专利。此外,据剑桥大学报告显示,受高昂专利维护费用影响,我国61%的AI实用新型和95%的外观设计将于5年后失效,而美国85.6%的专利仍能得到有效保留。

2.4政策监管

人工智能行业根据中国证监会颁布的《上市公司行业分类指引》(2012年修订)和国家统计局《国民经济行业分类》(GB/T4754-2017)隶属于“软件和信息技术服务业”(行业代码为I65)。根据《战略性新兴产业分类(2018)》隶属于“新一代信息技术产业”中的“人工智能”行业。

人工智能行业的行政监管部门为工信部,负责拟订信息产业的规划、政策和标准并组织实施,指导行业技术创新和技术进步,组织实施有关国家科技重大专项,推进相关科研成果产业化,推动软件业、信息服务业和新兴产业发展。

人工智能的自律协会包括:

中国软件行业协会:协助政府部门组织制定、修改行业的国家标准、行业标准及推荐性标准,并推进标准的贯彻落实;开展软件和信息服务行业的调查与统计,提出行业中、长期发展规划的咨询建议;根据软件行业发展需要,组织行业人才培训、人才交流等。

中国人工智能产业发展联盟:聚集产业生态各方力量,联合开展人工智能技术、标准和产业研究,共同探索人工智能的新模式和新机制,推进技术、产业与应用研发,开展试点示范,广泛开展国际合作等。

中国人工智能学会:组织和领导会员开展人工智能科学与技术的创新研究,促进人工智能科学与技术的发展;开展国内、国际学术交流活动,提高会员的学术水平;开展人工智能科学与技术的咨询与培训;组织开展对人工智能领域科学技术和产业发展战略的研究,向政府部门提出咨询建议等。

人工智能的行业政策包括:

资料来源:资产信息网千际投行

2020年国家标准化管理委员会、中央网信办国家发展改革委、科技部、工业和信息化部关于印发《国家新一代人工智能标准体系建设指南》的通知,将人工智能标准体系结构分为八大部分。

基础共性标准:包括术语、参考架构、测试评估三大类,位于人工智能标准体系结构的最左侧,支撑标准体系结构中其它部分。

支撑技术与产品标准:对人工智能软硬件平台建设、算法模型开发、人工智能应用提供基础支撑。

基础软硬件平台标准:主要围绕智能芯片、系统软件、开发框架等方面,为人工智能提供基础设施支撑。

关键通用技术标准:主要围绕智能芯片、系统软件、开发框架等方面,为人工智能提供基础设施支撑。

关键领域技术标准:主要围绕自然语言处理、智能语音、计算机视觉、生物特征识别、虚拟现实/增强现实、人机交互等方面,为人工智能应用提供领域技术支撑。

产品与服务标准:包括在人工智能技术领域中形成的智能化产品及新服务模式的相关标准。

行业应用标准:位于人工智能标准体系结构的最顶层,面向行业具体需求,对其它部分标准进行细化,支撑各行业发展。

安全/伦理标准:位于人工智能标准体系结构的最右侧,贯穿于其他部分,为人工智能建立合规体系。

图:人工智能标准体系结构

资料来源:资产信息网千际投行东吴证券

第三章行业估值、定价机制和全球龙头企业3.1行业综合财务分析和估值方法

图:指数表现

资料来源:资产信息网千际投行iFinD

人工智能行业估值方法可以选择市盈率估值法、PEG估值法、市净率估值法、市现率、P/S市销率估值法、EV/Sales市售率估值法、RNAV重估净资产估值法、EV/EBITDA估值法、DDM估值法、DCF现金流折现估值法、NAV净资产价值估值法等。

3.2行业发展和驱动因子

多个行业希望利用AI实现数字化转型

当前,数字化浪潮来袭,以人工智能为代表的新一代数字技术日新月异,催生了数字经济这一新的经济发展形态。过去20余年消费互联网的充分发展为我国数字技术的创新、数字企业的成长以及数字产业的蓬勃发展提供了重要机遇。人工智能等新一代信息技术的快速发展和应用,推动着各行各业加速向数字化迈进。伴随着数字技术的融合应用以及我国供给侧结构性改革的不断深化,加快AI等数字技术与产业经济的融合发展成为多个行业的共识。

大量人工智能高端人才

高端人才对于一个行业的影响毋庸置疑,甚至可以说,一个国家在人工智能领域的实力主要取决于少数精英研究人员的质量。目前世界范围内,美国仍然是拥有最多拔尖研究人员的国家,这就是为什么美国在人工智能发明的年代能够取得领先地位,并且进入应用的时代时,他们比自己的同行有优势。

近年来,我国企业对于机器学习、知识图谱等领域关注度逐年增加,尤其在金融、教育、医疗领域,并由此吸引了越来越多的人才从事相关领域的学习。在研究热度、就业前景、政策红利等多方面因素叠加下,未来我国有望培养大量该领域的高端人才。

移动互联网的推动

随着人工智能进入应用时代,数据的应用量得到了大幅提升。当今人工智能应用的核心,就是通过深度学习在海量数据中概括出人类难以发觉的细微联系的能力。数据可以被视为支撑人工智能运行的原材料。

我国拥有大量的移动互联网用户基础,为我国人工智能行业提供数据支撑。截至2021年上半年,我国手机网民规模为10.07亿,较2020年12月新增手机网民2092万,网民中使用手机上网的比例为99.6%

技术进步

(1)边缘计算技术:通过将边缘技术应用于人工智能,可以提供更快的计算和洞察力、更好的数据安全性以及对持续运营的有效控制。因此,它可以提高支持人工智能的应用程序的性能,并降低运营成本。

(2)分布式计算技术:可以将计算任务分派给多个分布式服务器进行下发,计算完成后再将结果通过不同的分布式服务器进行汇总,通过中央控制器合成展现。分布式计算架构与人工智能计算相辅相成,共同完成大数据处理和计算任务。

政府政策支持

政府政策在驱动中国人工智能发展方面的作用是显著的但常常被人误解。政府常常挑选优势企业进行补贴,或者发布命令规定应当发展的技术。如果人工智能对经济的影响远小于当前预期,那么投入人工智能的资源可能是一种浪费。

另外,由于许多人工智能技术都已经成熟,选择哪些进行支持对公共部门来说是一个问题。政府的参与绝不是技术领先的先决条件,但随着人工智能更深入地渗透到现实系统中,政府参与可能会加速技术产生经济影响。

3.3行业风险分析

表:常见行业风险因子

资料来源:资产信息网千际投行

(1)美国对国内AI发展限制力度可能加大

限制我国高科技产业的发展,已经成为美国政治精英层的共识。AI作为未来全球科技的重要发展方向,美国对相关领域的出口管制力度,不但不会因中美双方的后续协商而有所缓解,甚至还有可能加大。目前,美国已经将主要AI技术列入“限制性出口清单”,虽然没有明确限制对象,我国作为其重要竞争对手,限制力度可能更为严格,国内企业在技术引进、产品进口等方面将面临更多限制。

(2)政策支持力度不达预期或调整

当前,国内人工智能发展还处在起步阶段,产业链各环节发展还较为薄弱,企业对政府在技术研发、财税优惠、公共服务平台搭建、投融资支持、政府采购、人才培养等方面支持还十分依赖。如果政策支持方向出现调整,或者力度不达预期,对企业的业务发展和公司业绩都会造成较大的影响。

(3)技术研发和产业化不及预期

人工智能作为计算机领域的交叉和新兴学科,近年来进入创新爆发期,产品周期明显缩短,技术创新迭代加速,企业面临着的技术层面的竞争更为激烈。如果企业在技术研发投入不足或者产业化不及预期,对整个公司的发展将造成严重影响。

(4)市场竞争激化的风险

目前,国内在应用领域企业较为集中,微创企业、传统互联网巨头、垂直行业企业都在积极进入,形成了“百家争鸣”的格局,而且未来在国家政策的支持下,行业新进入企业将可能增多,市场、利润争夺也将趋于白热化,企业盈利能力将可能受到挑战。

3.4竞争分析-SWOT模型

优势

人工智能可以提供各种各样的应用来服务人类,比如京东和淘宝的智能推荐,无人车的自动驾驶。人工智能可用于完成最困难,最复杂甚至最危险的任务。我们可以利用人工智能的优势并充分利用它。人工智能还可以节省人力资源和提高效率,帮助我们完成单调,重复和耗时的过程。并且人工智能可以不停地工作,但人们不能这样做。同时人工智能能够比人们更快地完成复杂的任务,节省大量时间并加快进程,并且人工智能的成本与人力成本相比要低很多。

劣势

人工智能系统还无法超出场景或语境理解行为,并且具有不可预测性,用户无法预测人工智能会做出何种决策,这既是一种优势,也会带来风险,因为系统可能会做出不符合设计者初衷的决策。最后是安全问题和漏洞。机器会重结果而轻过程,它只会通过找到系统漏洞,实现字面意义上的目标,但其采用的方法不一定是设计者的初衷。例如,网站会推荐一些极端主义视频,因为刺激性内容可以增加浏览时间。再如,网络安全系统会判断人是导致破坏性软件植入的主要原因,于是索性不允许人进入系统。

机遇

无论人类社会自身的需求,还是由于人工智能的介入而产生的新需求,这些需求本身都为人工智能的发展提供了难得的机遇。虽然这些机遇不一定促成人工智能的进步,但它们的确是人工智能进一步发展的动力。人类总是期望人工智能可以更安全、更贴心地服务于人类,为人类创造更多的便利。

威胁

从技术层面来说,当前人工智能仍然面临着众多技术上的难题。技术上的难题关系着人工智能是否具有可靠性与高效性,能否取得人类信任,能否避免出现重大技术事故等。

从社会规范层面来看,人工智能的快速发展在一定程度上打破了传统的社会规范,也因此带来了一系列的社会问题。这些问题的出现,为人工智能的发展带来了诸多隐忧,甚至在一定程度上阻碍了人工智能的发展。人工智能能否解决人类对人工智能自身发展的担忧,在很大程度上决定着其自身的发展前景。

3.5重要参与企业

中国主要企业有海康威视[002415.SZ]、工业富联[601138.SH]、京东方A[000725.SZ]、中兴通讯[000063.SZ]、科大讯飞[002230.SZ]、恒生电子[600570.SH]、澜起科技[688008.SH]、闻泰科技[600745.SH]、兆易创新[603986.SH]、圣邦股份[300661.SZ]等。

根据Google的综合数据,全球人工智能企业排名前十分别是:Nvidia,Microsoft,IBM,Google,OpenAI,Alphabet,DataRobot,Apple,Intel,SenseTime。

第四章未来展望

整体趋势

人工智能作为第四次工业革命的重要抓手之一,已经成为各国科技领域争夺的焦点。中美两国在该领域各有千秋,竞争日趋激烈。国内人工智能政策环境较好,产业基础初步具备,市场需求十分旺盛。按照中央规划,未来人工智能核心产业、“AI+”(AI与传统产业融合)均是战略发展重点。

基础层

该层主要为人工智能提供算力支撑和数据输入,包括AI芯片、算力基础设施和大数据服务等。AI芯片方面,未来随着产业自身发展以及科创板的推进,国内AI专用芯片尤其是边缘端芯片领域的投资标的可能增加,一些视觉、语音算法研发企业已经注意到该领域的发展潜力,开始增加该板块的投资。

基础设施方面,服务器、云计算、超算等算力都开始向AI倾斜,尤其是GPU服务器需求增长更为迅速,国内主要服务器企业也在持续发力,竞争优势开始凸显。

技术层

该层是人工智能的核心,除了开源技术框架主要为国外AI巨头所掌控之外,我国企业在算法、语音和视觉技术等方面的布局已经相对完善。

应用层

该层是我国AI市场最为活跃的领域,国内AI企业多集中在该板块。尤其是语音、计算机视觉、知识图谱等相对成熟的技术,在AI产品、融合解决方案市场(安防、医疗、家居和金融等)上都得到了广泛应用,随着我国“AI+”战略的实施,该领域的市场空间更为广阔。

人工智能知识讲解之人脸识别技术

人工智能知识讲解之人脸识别技术人工智能是一种使机器表现出类似于人类智能的研究和应用领域。它可以分为弱人工智能和强人工智能,弱人工智能指的是可以执行特定任务的机器智能,例如计算机语音识别;强人工智能则指能够像人类一样具有智能的机器。人脸识别与人工智能的关系在于,人脸识别通常使用人工智能技术中的机器学习和深度学习等算法来实现。人脸识别是一种基于人脸图像的生物特征进行身份认证或者识别的技术,用摄像头采集含有人脸的图像或视频,自动检测跟踪人脸,也可以称为面部识别或人像识别。

人脸识别的步骤通常包括:图像采集、人脸检测、人脸对齐、特征提取、特征匹配、人脸识别和结果输出等。图像采集、人脸检测和人脸对齐是让计算机能够看得见,对用户脸部图像进行提取,找到人脸的五官和角度,将人脸图像变换到统一的角度;特征提取是从人脸图像中计算提取人脸紧凑同时具有鉴别性的特征,通过对特征进行匹配,达到正确识别的效果。人脸识别技术的优势在于使用不易察觉性,不同于指纹或虹膜识别,人脸识别可以通过可见光获取图像信息,不易引起人的注意,也很少会有伪装欺骗的可能;非接触性,用户不需要和设备进行接触;快速性、不可复制性和可拓展性都是人脸识别技术的优势,给人们带来更加智能、便捷的体验。人脸识别技术的发展也面临着很多困难,如五官相似性、光照、角度、表情、年龄、化妆、姿态变化、遮挡物等,会导致同一个人的脸在计算机看来有很大的差异,还有数据不足、算法不够精确、缺乏管理、可靠性、个人隐私问题等。此外,人脸识别技术还要面对不断发展的伪造手段,例如深度学习生成对抗网络攻击等。深度学习的出现让人脸识别技术取得了突破性的进展,体现在以下几点:深度学习可对图像进行高精度处理,提高人脸识别的准确率;深度学习自适应不同环境场景,适应不同的人脸图像;深度学习可以快速处理大量数据,提高识别效率;深度学习能对数据深层分析,提高识别可靠性。人脸识别技术已经融入我们生活的方方面面,包括安保领域的门禁、监控、边境安检等,还用于购物人脸支付、考勤打卡、银行缴费机自助服务、照片管理、虚拟现实、电子商务、服装搭配、身份鉴定等领域。人工智能在人脸识别方面的应用会越来越成熟,将更好地服务各行各业。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇