人工智能导论(9)——自然语言处理(Natural Language Processing) 人工智能以机器语言为基础对吗

发表时间：2023-06-27 03:23:15

人工智能导论(9)——自然语言处理(Natural Language Processing)

文章目录一、概述二、重点内容三、思维导图四、重点知识笔记NLP的两个核心任务NLP处理的三个分析层面NLP的主要流程语音识别机器翻译一、概述

人类利用语言进行交流、思想表达和文化传承是人类智能的重要体现。自然语言处理(NLP)是指用计算机来处理、理解以及运用人类语言，实现人机交流的目的。

本文将人工智能"自然语言处理"基础知识整理为思维导图，便于回顾和记忆。

二、重点内容简介NLP核心任务NLP主要应用领域NLP三个分析层面NLP分析流程典型应用简介语音识别机器翻译三、思维导图

四、重点知识笔记

自然语言处理(NLP)是指用计算机来处理、理解以及运用人类语言，是计算机科学与语言学的交叉学科。

从应用角度看，自然语言处理的应用有：

语音识别、文字识别文本生成、图像描述生成机器翻译：将一种语言翻译成另一种语言。知识图谱、信息抽取对话系统、问答系统文本分类、情感分析文本推荐NLP的两个核心任务自然语言理解(NaturalLanguageUnderstanding,NLU)自然语言生成(NaturalLanguageGeneration,NLG)自然语言理解(NLU):实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义自然语言生成(NLG):以自然语言文本来表达给定的意图、思想等。

NLU的应用：

机器翻译机器客服智能音响

NLU的实现方式：

自然语言理解跟整个人工智能的发展历史类似，一共经历了3次迭代：

基于规则的方法：最早大家通过总结规律来判断自然语言的意图，常见的方法有：CFG、JSGF等。基于统计的方法：后来出现了基于统计学的NLU方式，常见的方法有：SVM、ME等。基于深度学习的方法：随着深度学习的爆发，CNN、RNN、LSTM都成为了最新的”统治者”。

Transformer是目前“最先进”的方法。BERT和GPT-2都是基于TRansformer的。

NLG的6个步骤：

内容确定–ContentDetermination文本结构–TextStructuring句子聚合–SentenceAggregation语法化–Lexicalisation参考表达式生成–ReferringExpressionGeneration|REG语言实现–LinguisticRealisation

NLG典型应用：

聊天机器人自动写新闻：对于具有明显规则的领域，比如体育新闻。目前很多新闻已经借助NLG来完成了BI报告生成NLP处理的三个分析层面

第一层面：词法分析

词法分析包括汉语的分词和词性标注这两部分。

分词：将输人的文本切分为单独的词语词性标注：为每一个词赋予一个类别类别可以是名词(noun)、动词（verb）、形容词（adjective）等属于相同词性的词，在句法中承担类似的角色。

第二层面:句法分析

句法分析是对输人的文本以句子为单位，进行分析以得到句子的句法结构的处理过程。

三种比较主流的句法分析方法:

短语结构句法体系，作用是识别出句子中的短语结构以及短语之间的层次句法关系;介于依存句法分析和深层文法句法分析之间依存结构句法体系（属于浅层句法分析），作用是识别句子中词与词之间的相互依赖关系;实现过程相对来说比较简单而且适合在多语言环境下应用，但是其所能提供的信息也相对较少深层文法句法分析，利用深层文法，对句子进行深层的句法以及语义分析例如词汇化树邻接文法，组合范畴文法等都是深层文法深层文法句法分析可以提供丰富的句法和语义信息深层文法相对比较复杂，分析器的运行复杂度也比较高，不太适合处理大规模的数据

第三个层面:语义分析

语义分析的最终目的是理解句子表达的真是语义。语义表示形式至今没有一个统一的方案。

语义角色标注（semanticrolelabeling)是目前比较成熟的浅层语义分析技术。语义角色标注一般都在句法分析的基础上完成，句法结构对于语义角色标注的性能至关重要。通常采用级联的方式，逐个模块分别训练模型分词词性标注句法分析语义分析联合模型（新发展的方法）将多个任务联合学习和解码分词词性联合词性句法联合分词词性句法联合句法语义联合等联合模型通常都可以显著提高分析质量联合模型的复杂度更高，速度也更慢。NLP的主要流程传统机器学习的NLP流程预处理特征提取词袋设计Embedding特征分类器深度学习的NLP流程预处理设计模型模型训练

预处理过程：

收集语料库（输入文本）文本清洗（文本清洗，）删除所有不相关的字符，例如任何非字母数字字符分割成单个的单词文本删除不相关的单词，例如“@”提及或网址链接将所有字符转换为小写，以便将诸如“hello”，“Hello”和“HELLO”之类的单词视为相同考虑将拼写错误或交替拼写的单词组合成单个表示（例如“cool”/“kewl”/“cooool”）考虑词性还原（将诸如“am”，“are”和“is”之类的词语简化为诸如“be”之类的常见形式）分词去掉停用词（可选）标准化和特征提取等。

英文预处理：

分词–Tokenization词干提取–Stemming词形还原–Lemmatization词性标注–PartsofSpeech命名实体识别–NER分块–Chunking

中文NLP预处理：

中文分词–ChineseWordSegmentation词性标注–PartsofSpeech命名实体识别–NER去除停用词

中文分词方法：

经典的基于词典及人工规则：适应性不强，速度快，成本低基于词典：（正向、逆向、双向最大匹配）基于规则：（词法结构）现代的基于统计和机器学习：适应性强，速度较慢，成本较高基于统计：HMM隐马尔可夫模型基于机器学习：CRF条件随机场

自然语言典型工具和平台

NLTK：全面的python基础NLP库。StanfordNLP：学界常用的NLP算法库。中文NLP工具：THULAC、哈工大LTP、jieba分词。语音识别

将人类语音中的词汇内容转换为计算机可读的输入。

语音识别系统的分类主要有：

孤立和连续语音识别系统（主流为连续语音识别）以单字或单词为单位的孤立的语音识别系统自然语言只是在句尾或者文字需要加标点的地方有个间断，其他部分都是连续的发音特定人和非特定人语音识别系统特定人语音识别系统在前期需要大量的用户发音数据来训练模型。非特定人语音识别系统则在系统构建成功后，不需要事先进行大量语音数据训练就可以使用大词汇量和小词汇量语音识别系统嵌入式和服务器模式语音识别系统

语音识别的过程

语音识别系统一般可以分为前端处理和后端处理两部分：

前端包括语音信号的输入预处理：滤波、采样、量化特征提取后端是对数据库的搜索过程训练：对所建模型进行评估、匹配、优化，之后获得模型参数识别

语音识别的过程：

根据人的语音特点建立语音模型对输入的语音信号进行分析，并抽取所需的特征，建立语音识别所需要的模板将语音模板与输入的语音信号的特征进行比较，找出一与输入语音匹配最佳的模板通过查表和判决算法给出识别结果

显然识别结果的准确率与语音特征的选择、语音模型和语音模板的好坏及准确度有关。

语音识别系统的性能受多个因素的影响

不同的说话人不同的语言同一种语言不同的发音和说话方式等

提高系统的稳定性就是要提高系统克服这些因素的能力，使系统能够适应不同的环境。

声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法来计算语音的特征矢量序列和各发音模板之间的距离。

语音识别关键技术

语音特征提取常见的语音特征提取算法有MFCC、FBank、LogFBank等声学模型与模式匹配声学模型：对应于语音音节频率的计算，输出计算得到的声学特征模式匹配：在识别时将输入的语音特征与声学特征同时进行匹配和比较目前采用的最广泛的建模技术是隐马尔可夫模型（HiddenMarkovModel，HMM）。语音模型与语义理解进行语法、语义分析语言模型会计算音节到字的概率主要分为规则模型和统计模型语音模型的性能通常通过交叉熵和复杂度来表示，交叉熵表示交叉熵表示用该模型对文本进行识别的难度复杂度是指用该模型表示这个文本平均的分支数，其倒数可以看成是每个词的平均概率机器翻译

机器翻译就是让机器模拟人的翻译过程，利用计算机自动地将一种自然语言翻译为另一种自然语言。

在机器翻译领域中出现了很多研究方法，包括：

直接翻译方法句法转换方法中间语言方法基于规则的方法基于语料库的方法基于实例的方法（含模板与翻译记忆方法）基于统计的方法基于深度学习的方法等

机器翻译过程：

原文输入：按照一定的编码转换成二进制。原文分析（查词典和语法分析）查词典：词在语法类别上识别为单功能的词，在词义上成为单义词（某些介词和连词除外）语法分析：进一步明确某些词的形态特征。找出动词词组、名词词组、形容词词组等译文综合（调整词序与修辞以及从译文词典中取词）任务1：把应该以为的成分调动一下首先加工间接成分：从前向后依次取词加工，从句子的最外层向内加工。其次加工直接成分：依据成分取词加工，对于复句还需要对各分句进行加工。任务2：修辞加工根据修辞的要求增补或删掉一些词。例如英语中的冠词、数次翻译汉语，加上"个"、“只”。任务3：查目标语言词典，找出目标语言文字的代码。译文输出将目标语言的代码转换成文字，打印出译文来

通用翻译模型：

GNMT（GoogleNeuralMachineTranslation）基于网页和App的神经网络机器翻译完全基于注意力机制的编解码器模型TransformerTransformer的升级版—UniversalTransformer

在Transformer出现之前，多数神经基于神经网络的翻译模型都使用RNN。RNN训练起来很慢，长句子很难训练好。UniversalTransformer模型具有了通用计算能力，在更多任务中取得了有力的结果。UniversalTransformer的训练和评估代码已开源在了Tensor2Tensor网站。

个人总结，部分内容进行了简单的处理和归纳，如有谬误，希望大家指出，持续修订更新中。

修订历史版本见：https://github.com/hustlei/AI_Learning_MindMap

人工智能的三次浪潮与三种模式

■史爱武

谈到人工智能，人工智能的定义到底是什么？

达特茅斯会议上对人工智能的定义是：使一部机器的反应方式就像是一个人在行动时所依据的智能。

百度百科上对人工智能的定义是：它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

尽管人工智能现在还没有非常严格准确或者所有人都接受的定义，但是有一些约定俗成的说法。通常人工智能是指机器智能，让机器达到人智能所实现的一些功能。人工智能既然是机器智能，就不是机械智能，那么这个机器是指什么呢？是指计算机，用计算机仿真出来的人的智能行为就可以叫作人工智能。

2017年7月，国务院印发了《新一代人工智能发展规划》。2017年12月，人工智能入选“2017年度中国媒体十大流行语”。这一国家级战略和社会流行趋势标志着，人工智能发展进入了新阶段，我国要抢抓人工智能发展的重大战略机遇，构筑人工智能发展的先发优势，加快建设创新型国家和世界科技强国。

人工智能的三次浪潮

自1956年开始，人工智能经历了三起三落，出现了几次浪潮，现在人工智能已经是处于第三次浪潮了。

第一次浪潮（1956-1976年，20年），最核心的是逻辑主义

逻辑主义主要是用机器证明的办法去证明和推理一些知识，比如用机器证明一个数学定理。要想证明这些问题，需要把原来的条件和定义从形式化变成逻辑表达，然后用逻辑的方法去证明最后的结论是对的还是错的，也叫做逻辑证明。

早期的计算机人工智能实际上都是沿着这条路在走。当时很多专家系统，比如医学专家系统，用语言文字输入一些症状，在机器里面变换成逻辑表达，用符号演算的办法推理出大概得了什么病。所以当时的主要研究都集中在逻辑抽象、逻辑运算和逻辑表达等方面。

在第一次浪潮中，数学定理证明实际上是实现效果最好的，当时有很多数学家用定理思路证明了数学定理。为了更好地完成定理证明工作，当时出了很多和逻辑证明相关的逻辑程序语言，比如很有名的Prolog。

虽然当时的成果已经能够解开拼图或实现简单的游戏，却几乎无法解决任何实用的问题。

第二次浪潮（1976—2006年，30年），联结主义盛行

在第一次浪潮期间，逻辑主义和以人工神经网络为代表的联结主义相比，逻辑主义是完全占上风的，联结主义那时候不太吃香。然而逻辑主义最后无法解决实用的问题，达不到人们对它的期望，引起了大家的反思，这时候人工神经网络（也就是联结主义）就慢慢占了上风。

在70年代末，整个神经元联结网络、模型都有突飞猛进的进步，最重要的是BP前馈神经网络。1986年BP前馈神经网络刚出来的时候解决了不少问题，后来大家往更大的领域应用，实现了比较大的成果。在很多模式识别的领域、手写文字的识别、字符识别、简单的人脸识别也开始用起来，这个领域一下子就热起来，一时之间，人们感觉人工智能大有可为。随后十几年人们发现神经网络可以解决一些单一问题，解决复杂问题却有些力不从心。训练学习的时候，数据量太大，有很多结果到一定程度就不再往上升了。

这时期所进行的研究，是以灌输“专家知识”作为规则，来协助解决特定问题的“专家系统”为主。虽然有一些实际的商业应用案例，应用范畴却很有限，第二次热潮也就慢慢趋于消退。

第三次浪潮（2006—现在），基于互联网大数据的深度学习的突破

如果按照技术分类来讲，第二次和第三次浪潮都是神经网络技术的发展，不同的是，第三次浪潮是多层神经网络的成功，也就是深度学习取得突破。这里既有硬件的进步，也有卷积神经网络模型与参数训练技巧的进步。

若观察脑的内部，会发现有大量称为“神经元”的神经细胞彼此相连。一个神经元从其他神经元那里接收的电气信号量达某一定值以上，就会兴奋（神经冲动）；在某一定值以下，就不会兴奋。兴奋起来的神经元，会将电气信号传送给下一个相连的神经元。下一个神经元同样会因此兴奋或不兴奋。简单来说，彼此相连的神经元，会形成联合传递行为。我们透过将这种相连的结构来数学模型化，便形成了人工神经网络。

经模型化的人工神经网络，是由“输入层”“隐藏层”及“输出层”等三层构成。深度学习往往意味着有多个隐藏层，也就是多层神经网络。另外，学习数据则是由输入数据以及相对应的正确解答来组成。

为了让输出层的值跟各个输入数据所对应的正解数据相等，会对各个神经元的输入计算出适当的“权重”值。通过神经网络，深度学习便成为了“只要将数据输入神经网络，它就能自行抽出特征”的人工智能。

伴随着高性能计算机、云计算、大数据、传感器的普及，以及计算成本的下降，“深度学习”随之兴起。它通过模仿人脑的“神经网络”来学习大量数据的方法，使它可以像人类一样辨识声音及影像，或是针对问题做出合适的判断。在第三次浪潮中，人工智能技术及应用有了很大的提高，深度学习算法的突破居功至伟。

深度学习最擅长的是能辨识图像数据或波形数据这类无法符号化的数据。自2010年以来，Apple、Microsoft及Google等国际知名IT企业，都投入大量人力物力财力开展深度学习的研究。例如AppleSiri的语音识别，Microsoft搜索引擎Bing的影像搜寻等等，而Google的深度学习项目也已超过1500项。

深度学习如此快速的成长和应用，也要归功于硬件设备的提升。图形处理器（GPU）大厂英伟达（NVIDIA）利用该公司的图形适配器、连接库（Library）和框架（Frame⁃work）产品来提升深度学习的性能，并积极开设研讨课程。另外，Google也公开了框架TensorFlow，可以将深度学习应用于大数据分析。

人工智能的3种模式

人工智能的概念很宽泛，根据人工智能的实力可以分成3大类，也称为3种模式。

（1）弱人工智能：擅长于单个方面的人工智能，也叫专业人工智能。比如战胜世界围棋冠军的人工智能AlphaGo，它只会下围棋，如果让它下国际象棋或分辨一下人脸，它可能就会犯迷糊，就不知道怎么做了。当前我们实现的几乎全是弱人工智能。

（2）强人工智能：是指在各方面都能和人类比肩的人工智能，这是类似人类级别的人工智能，也叫通用人工智能。人类能干的脑力活，它都能干，创造强人工智能比创造弱人工智能难得多，目前我们还做不到。

（3）超人工智能：知名人工智能思想家NickBostrom把超级智能定义为“在几乎所有领域都比最聪明的人类大脑都聪明很多，包括科学创新、通识和社交技能”。超人工智能可以是各方面都比人类强点，也可以是各方面都比人类强很多倍。超人工智能现在还不存在，很多人也希望它永远不要存在。否则，可能像好莱坞大片里面的超级智能机器一样，对人类也会带来一些威胁或者颠覆。

我们现在处于一个充满弱人工智能的世界。比如，垃圾邮件分类系统是个帮助我们筛选垃圾邮件的弱人工智能；Google翻译是可以帮助我们翻译英文的弱人工智能等等。这些弱人工智能算法不断地加强创新，每一个弱人工智能的创新，都是迈向强人工智能和超人工智能的进步。正如人工智能科学家AaronSaenz所说，现在的弱人工智能就像地球早期软泥中的氨基酸，可能突然之间就形成了生命。如世界发展的规律看来，超人工智能也是未来可期的！

加快推动人工智能产业高质量发展

人工智能产业为中国经济发展提供战略新动能，是引领中国经济发展的重要战略抓手。2018年9月17日，习近平总书记在致2018世界人工智能大会的贺信中指出，新一代人工智能正在全球范围内蓬勃兴起，为经济社会发展注入了新动能，正在深刻改变人们的生产生活方式。习近平总书记强调，中国正致力于实现高质量发展，人工智能的发展应用将有力提高经济社会发展智能化水平，有效增强公共服务和城市管理能力。习近平总书记的重要论述，为人工智能产业实现高质量发展，更好服务于人民的美好生活指明了方向。

推动高质量发展是“十四五”时期的主题

党的十九届五中全会明确指出，我国经济已转向高质量发展阶段。以推动高质量发展为主题，是“十四五”时期以习近平同志为核心的党中央根据我国发展阶段、发展环境和发展条件变化对我国经济做出的新的重大科学判断。习近平总书记指出，高质量发展就是体现新发展理念的发展，是创新成为第一动力、协调成为内生特点、绿色成为普遍形态、开放成为必由之路、共享成为根本目的的发展。高质量的发展意味着在中高端产品消费、创新引领、绿色低碳、共享经济、现代供应链、人力资本服务等领域需要培育经济新增长点、形成发展新动能。新时代新阶段的发展必须贯彻新发展理念，必须是高质量发展。而推动经济高质量发展，关键在于以创新为驱动、高质量供给为引领，加快建立科技创新体系，构建现代产业体系，推动质量变革、效率变革、动力变革，建立中高端产业链、价值链，使发展成果更好惠及全体人民，不断实现人民对美好生活的新需求。

当前新一轮科技革命和产业革命正在发生变革，这与我国高质量发展形成历史性交汇。“十四五”时期我国经济发展应抢抓这一重要变革机遇，为高质量发展“动力换挡”导入强劲引擎。伴随移动互联网、大数据、超级计算、传感网、脑科学等新理论新技术的驱动，以人工智能技术为代表的新一轮科技革命蓬勃发展，以前所未有的速度和方式改变着经济发展，成为高质量发展的重要引擎。习近平总书记在十九届中央政治局第九次集体学习时的讲话中指出，“人工智能是引领这一轮科技革命和产业变革的战略性技术，是新一轮科技革命和产业变革的重要驱动力量，具有溢出带动性很强的‘头雁’效应”。加快发展新一代人工智能不仅“事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题”，而且是“我们赢得全球科技竞争主动权的重要战略抓手”，更是“推动我国科技跨越发展、产业优化升级、生产力整体跃升的重要战略资源”。在推动经济高质量发展的过程中，人工智能产业的高质量，可以为中国经济发展添薪续力。

党的十九届五中全会审议通过的《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》指出，“在当前和今后一个时期，我国发展仍然处于重要战略机遇期”，要紧扣重要战略机遇新变化，“坚持把发展经济着力点放在实体经济上，坚定不移建设制造强国、质量强国、网络强国、数字强国，推进产业基础高级化、产业链现代化，提高经济质量效益和核心竞争力”。在推动经济高质量发展阶段，人工智能正在为中国新旧动能转换和国民经济高质量发展提供有力支撑，它是推动工业变革的核心驱动力量，也是最能体现知识要素贡献和打造经济社会发展新动能的基础设施产业，加快推进人工智能产业优化升级，成为未来科技创新的一个“超级风口”。近年来，中国人工智能产业化发展迅速，技术发展日益成熟、应用场景日益丰富，企业数量、融资规模均居全球第二，成为人工智能产业化大国之一。与此同时，我国人工智能产业的发展在基础理论研究、关键核心技术、人才培养等方面存在一些短板，这在一定程度上限制了人工智能产业创新发展潜能的充分释放。对此，习近平总书记强调，要深刻认识加快发展新一代人工智能的重大意义，加强领导，做好规划，明确任务，夯实基础，创新技术，促进其同经济社会发展深度融合，推动我国新一代人工智能实现高质量的发展。

以人才、技术促进人工智能产业实现高质量发展

我国人工智能产业迅速发展，在智能芯片、智能算法、知识图谱、计算机视觉、自然语言处理等技术方面不断取得突破，为人工智能产业的创新发展奠定了一定基础。但中国智能产业在芯片硬件等关键性核心技术上仍然比较薄弱，这成为制约人工智能产业实现高质量发展的重要隐患。对此，习近平总书记指出，人工智能具有多学科综合、高度复杂的特征。我们必须加强研判，统筹谋划，协同创新，稳步推进，把增强原创能力作为重点，以关键核心技术为主攻方向，促进人工智能实现高质量发展。

重视产业人才培养，构建“引才、留才、用才”新格局。人工智能产业要实现高质量发展，培养人工智能人才是关键。因此，要强化多层次人才的培养和引入。一是培养人工智能产业所需的复合型人才。一方面，构建以技能为本的劳动力市场，鼓励企业和各类机构为员工提供人工智能技能培训，培育一批专业技能扎实、科学素养高、动手实践能力强、具备开阔产业应用视角和国际前瞻视野的人才，确保关键工种拥有充分数量的人才储备；另一方面，完善高校人工智能学科体系建设和布局，深化“产学研”融合发展，鼓励高校、科研院所与企业合作，通过校企共建人工智能专业和课程，培育更多符合人工智能产业高质量发展所需的复合型人才。二是坚持“走出去+引进来”，加大全球高端人才的培养和引入。一方面，选派人工智能领域优秀科研人员赴海外学习交流，扩大国际化视野；另一方面，充分利用海南自由贸易港、自由贸易区、粤港澳大湾区等历史性战略机遇，鼓励人工智能产业人才引入。

加快完善数字基础设施，增强人工智能科技创新能力。人工智能产业要实现高质量发展，技术的完善和突破是重点，这就要求在技术上既要加快完善基本数字基础设施，也要坚持核心技术的攻坚克难。一是要完善数字基础设施，推动传统产业智能化转型。一方面，充分利用新基建机遇，加强人工智能基础研究和技术研发，协调推进各类数据中心、5G网络部署，全面提升端侧的数据计算、采集及传输能力，为传统产业全面向数字化转型打造坚实广泛的计算基础。另一方面，充分发挥国家新一代人工智能开放创新平台赋能作用，加强传统产业与科技公司合作力度，共同突破工业数字化壁垒，实现双赢。二是要加大基础研究力度，加快突破一批人工智能产业化关键技术。国家要调整人工智能投入结构，提高基础研究经费投入比重和投入力度，支持科学家勇闯人工智能科技前沿的“无人区”，鼓励校企开展深度合作，建立协同创新联盟，努力在人工智能发展方向和理论、方法等方面取得变革性突破，确保我国在人工智能重要领域的理论研究走在前面。同时，要以问题为导向，重点突破自主芯片技术和算法技术，加快建立新一代人工智能关键共性技术体系，确保人工智能关键核心技术牢牢掌握在自己手里。

融合实体经济，推动人工智能产业高质量发展

人工智能是具有极强渗透性的技术。当前人工智能产业化应用正加速从娱乐、消费等领域开始向制造、医疗、能源、交通等更大范围的实体经济进军，这给人工智能产业提供了庞大的市场和丰富的场景。人工智能在我国交通、医疗、教育等传统行业中的发展和应用仍然处于较低水平，无法满足人民对美好生活的需要。因此，要实现人工智能产业高质量发展，就要发挥人工智能在产业升级、产品开发、服务创新等方面的技术优势，推动人工智能与实体经济深度融合，以人工智能技术推动各产业变革，加快产业对接，聚焦重点领域，形成以场景应用为导向的发展模式。

搭建智能平台，发挥人工智能技术应用功能。人工智能不仅能创新产品和服务，而且也能在相当程度上改进或优化传统产业的生产流程，重构传统产业的业务模式。当前，以人脸识别、车辆特征识别、手写识别、文字识别等为代表的计算机视觉相关技术基本成熟，“机器视觉”在制造业中已经逐渐推广应用，加强计算机视觉技术与传统汽车制造等产业的深度融合，用机器代替人力劳动，不仅能节约人力投入，还能提高产品品质。人工智能还能对生产过程的数据进行分析并加以改进。工业生产线在运行过程中会生出大量实时数据(比如温度、压力等等)，利用人工智能技术对数据进行分析，能提前预测可能出现的机器故障、残次品率等等，进而对生产流程进行优化，以达到节约成本、提高效率的目标。因此，要大力推广应用人工智能在促进制造业转型升级中的支撑和引领作用，使其成为推动高新技术产业创新发展中的“头雁”和区域发展的“增长极”。

聚焦重点领域，助推人工智能应用场景落地。如果说人工智能产业是供给侧，那么传统行业则是需求侧。推进人工智能应用场景落地，就要处理好供给侧和需求侧的关系。随着人工智能加速向医疗、交通、智慧城市等多领域的渗透，应聚焦这些涉及民生的领域，提升人工智能产业与实体经济的融合度，为人民群众提供更优质、丰富、便利的新产品和新服务，满足人民群众对美好生活的需要。因此，人工智能技术要着眼于我国庞大的市场和丰富的场景，围绕社会发展需求领域布局，探索出一条充分发挥我国市场和场景资源优势的高质量人工智能产业发展路径。

（作者单位：北京科技大学马克思主义学院）

责任编辑：肖景华

人工智能的伦理挑战与科学应对

【光明青年论坛】

编者按

2023年2月21日，中国外交部正式发布《全球安全倡议概念文件》，呼吁“加强人工智能等新兴科技领域国际安全治理，预防和管控潜在安全风险”。在中国式现代化进程中，人工智能的技术革新是助推我国科技创新的重要力量之一。作为最具代表性的颠覆性技术，人工智能在给人类社会带来潜在巨大发展红利的同时，其不确定性也会带来诸多全球性挑战，引发重大的伦理关切。习近平总书记高度关注人工智能等新兴科技的发展，强调要加快提升“人工智能安全等领域的治理能力”，“塑造科技向善的文化理念，让科技更好增进人类福祉”。为此，本版特组织几位青年学者围绕人工智能的伦理挑战与科学应对展开讨论，并邀请专家予以点评，以期引发学界的更多关注，为推动人工智能健康发展贡献智慧。

与谈人

彭家锋中国人民大学哲学院博士生

虞昊华东师范大学政治与国际关系学院博士生

邓玉龙南京师范大学哲学系博士生

主持人

刘永谋中国人民大学哲学院教授、国家发展与战略研究院研究员

1.机遇与挑战并存的人工智能

主持人：新技术革命方兴未艾，以人工智能等为代表的新兴科技快速发展，大大拓展了时间、空间和人们的认知范围，人类正在进入一个“人机物”相融合的万物智能互联时代。请具体谈谈人工智能给人类社会发展带来什么样的机遇？

彭家锋：人工智能、大数据、物联网、云计算等智能技术蓬勃兴起，对人类社会的方方面面产生深刻影响，推动整个社会逐步迈入智能社会。在此过程中，存在许多重大历史机遇需要我们把握。就技术治理而言，人工智能作为一种治理技术，正在助推社会治理的治理理念、治理方式、治理效能等方面的变革，将传统技术治理提升至智能化新阶段，呈现出“智能治理的综合”趋势。智能治理将全面提升社会公共治理的智能化水平，主要呈现出四个方面的特征：一是治理融合化，即促进各种智能技术与其他治理技术相互融合，大幅度提升智能社会的治理水平；二是治理数据化，即以日益增长的海量数据为基础，通过对数据映射出来的“数字世界”进行社会计算，实现治理目标；三是治理精准化，即发挥智能技术强大的感知能力、传输能力和计算能力，将传统的粗放治理转变为精准治理；四是治理算法化，即不断完善智能决策系统，尝试将程序化的算法决策扩展到更多的决策活动中，从而提高决策质量。

虞昊：人工智能有助于反思人类社会得以建立与发展的基础。随着分析式AI向着生成式AI不断演变，尤其是生成式AI初步展现出判别问题、分析情感、展开对话、创作内容等越来越具有人类特征的功能，原本属于人类的领域正被人工智能以另一套由“0”与“1”构成的计算机语言逐步侵蚀。这既是对人类社会的冲击，也势必会在更加平等的开放性框架中增强人类的主体性，促进人类社会进一步发展。

邓玉龙：总体来说，以人工智能为代表的新科技发展，显著提升了社会生产力。例如，生成式AI不但能完成传统AI的分析、判断工作，还能进一步学习并完成分析式AI无法从事的创造性工作。从人机交互的角度来看，人工智能也促进了生产关系的高效发展。具体表现在：一是刺激劳动形态的转化。人工智能高效承担大量的基础机械性劳动，人类劳动则向高阶的创造性劳动转化，由此引发社会层面的劳动结构转型、升级，并且以人工智能为中介，社会范围内的劳动整合、协调能力也实现升级。二是促进劳动场域的重构。随着劳动形态的转化和劳动的社会化扩展，人工智能将劳动从固定场域中解放出来，人类劳动的灵活性增加。相比于创造性劳动，机械性劳动更加受到空间和时间的制约，而在人工智能从技术层面替代更低边际成本的基础性劳动之后，人类劳动空间和时间的自由性实现跃迁。三是对主体的发展提出了更高要求，尤其是对主体适应社会发展提出了更高要求。人工智能技术的发展对人类传统的知识结构提出挑战，要求人类更新原有的知识结构以适应社会发展需要，也对教育提出更高要求，教育模式和教育内容需要更契合科技发展的水平，培养更加全面发展的人才。

主持人：人工智能的一系列产物在给人们带来生活便利的同时，也一定程度上引起大家对其可能引发的伦理挑战的警惕。一些人关注人工智能的风险问题，对人工智能的推进有些焦虑。如何看待这种警惕和焦虑？

虞昊：人工智能的风险以及由此带来的焦虑，是完全可以理解的。但我们无法返回一个没有人工智能的世界，人工智能已然深度介入人类社会，试图遏制人工智能的推进只能是螳臂当车。同时我们对人工智能的发展也不能放任不管，无视甚至于压制人工智能的推进只能是掩耳盗铃。因此，我们应该正视这种焦虑，在发展人工智能的过程中探求解决方案，在人工智能带来的风险中寻求危中之机。

邓玉龙：我们应正确看待这种焦虑。要看到，焦虑有其积极的意义，它体现人类的忧患意识，催生对人工智能风险的预见性思考，提醒我们注意焦虑背后人工智能技术发展存在的问题。正确对待焦虑有助于积极采取措施防范风险，辩证分析焦虑中先见性的思考，通过社会治理模式的升级化解风险问题。同时，仅有焦虑和恐惧是不够的，更重要的是积极解决人工智能发展带来的社会问题。从劳动的角度看，人工智能确实会取代部分人类劳动，推动劳动结构转型升级，让劳动向着碎片化、个体化方向发展，劳动者处于弱势地位，面临着“机器换人”的挑战。但是我们也应该理性认识到，人工智能不是对人类劳动能力的完全替代，而是对劳动者提出了更高的要求，要求劳动者掌握科学知识，将技术的发展内化为自身能力，在更具创造性的劳动中实现自身价值。

彭家锋：任何技术的发明使用，不可避免地伴随着这样或那样的风险。人工智能技术自然也不例外，在其应用过程中，同样引发了诸如隐私泄露、算法歧视、法律责任等风险问题。因此，关注人工智能的风险问题，并由此对人工智能的推进产生焦虑，具有一定理论依据和现实基础。但更应当清醒地认识到，人工智能的某些相关风险可以提前得到规避，并不必然会发生；即便真的发生，也仍可不断寻求化解风险的有效手段。以个人隐私滥用风险为例，在治理过程中，虽然不可避免地会涉及个人数据收集和分析处理，但可以通过建立完整的规范和监管体系来保护个人隐私，降低滥用风险。

2.人工智能科技竞争的“伦理赛道”

主持人：习近平总书记在以视频方式出席二十国集团领导人第十五次峰会时指出，“中方支持围绕人工智能加强对话，倡议适时召开专题会议，推动落实二十国集团人工智能原则，引领全球人工智能健康发展”。请谈谈“人工智能原则”应包含哪些内容？科技向善的文化理念对推动全球人工智能健康发展具有怎样的现实价值？

彭家锋：为应对人工智能等新科技快速发展带来的伦理挑战，2022年，中共中央办公厅、国务院办公厅印发了《关于加强科技伦理治理的意见》，其中明确了“增进人类福祉”“尊重生命权利”“坚持公平公正”“合理控制风险”“保持公开透明”等五项科技伦理原则。我认为，这五项原则基本涵盖了人工智能原则的伦理要求，彰显了科技向善的文化理念。科技向善的文化理念，根本目标是让科技发展更好地服务社会和人民，带来良好社会或社会公益的善。科技向善对推动全球人工智能健康发展至少具有以下三个方面现实价值：一是塑造公众信任。公众对人工智能的信任很大程度上并不完全由相关风险程度决定，而是取决于公众的利益与价值是否得到足够重视。后者正是科技向善的内在要求。二是引领技术创新。科技向善的文化理念将在技术创新发展过程中发挥价值引领作用。三是促进全球合作。科技向善的文化理念试图在全球范围内建立人工智能伦理规范的“最大公约数”，各国在达成伦理共识的基础之上，能够建立互信，实现更加充分深入的国际合作。

虞昊：个人认为，人工智能原则也应包含非对抗与非失控的理念。非对抗意味着不应将人工智能视作人类社会的对抗性存在，人工智能已经成为人类社会的构成性要素，我们必须持更为开放的态度去面对人工智能。非失控意味着不应放弃对人工智能的伦理规范，应以智能的方式去规范加速发展的人工智能。如果以上述理念为前提，也就是说，在支持人工智能发展的情况下，科技向善的文化理念在推动全球人工智能健康发展中就变得极为重要。此处的“善”在国家治理层面即指向“善治”，而当人工智能的发展从国家范围扩展到全球范围，“善治”就在构建人类命运共同体的意义上拥有了更贴近现实的内涵。各国应摒弃冷战思维与零和博弈，基于善意与友谊共同思考人类作为整体如何在人工智能的冲击下通往全球性的“善治”。

邓玉龙：2019年欧盟发布《可信赖的人工智能伦理准则》，2021年中国国家新一代人工智能治理专业委员会发布《新一代人工智能伦理规范》（以下简称《规范》）。与欧盟发布的伦理准则相比，《规范》体现了中国特色社会主义的制度优势，旨在将伦理规范融入人工智能全生命周期。人工智能发展的根本目的是促进人的全面发展，因此，我以为，人工智能原则还应体现共享和有序发展的要求。共享，旨在防止人工智能的技术垄断。科技发展应该兼顾全体人民的利益，而不是服务于少数群体，由全体人民共享科技发展成果，推动全球科技水平的共同增长。有序发展，旨在防止人工智能技术的无序扩张。人工智能技术的发展最终是为了提升人的幸福感，推动科技有序发展能够促进人机和谐融合，有效预防潜在无序扩张的风险。

主持人：从规范层面来说，伦理反思对规范人工智能发展的作用主要体现在哪些方面？

彭家锋：近年来，世界各主要国家在人工智能领域竞争日趋激烈，纷纷将人工智能发展置于国家发展的战略层面。比如，美国陆续出台《国家人工智能研究和发展战略计划》（2016）和《关于维持美国在人工智能领域领导地位的行政命令》（2019）；欧盟先后发布《欧洲人工智能战略》（2018）和《人工智能白皮书》（2020）；中国也较早发布了《“互联网+”人工智能三年行动实施方案》（2016）和《新一代人工智能发展规划》（2017）。人工智能科技竞争的客观局面已然形成。在此背景下，如果忽视人工智能技术发展所带来的全球性风险与挑战，极有可能陷入技术赶超的竞争逻辑。因此，亟须规范人工智能的科技竞争，而倡导伦理反思或许就是一条可行之路。伦理反思的意义至少在于：一是设定伦理底线。人工智能技术的开发和应用需要遵循一些基本的价值理念和行为规范。只有守住伦理底线，才有可能避免颠覆性风险的发生。二是实现敏捷治理。伦理反思是一个动态、持续的过程，贯穿于人工智能科技活动的全生命周期。为了确保其始终服务于增进人类福祉和科技向善的初衷，需要保持应有的道德敏感性，以灵活、及时、有效的手段化解人工智能带来的各种伦理挑战，确保其在科技向善的道路上行稳致远，实现良性发展。

邓玉龙：人工智能科技竞争是为了促进科学技术发展，而科学技术发展的最终目的是推动人类社会的进步。人工智能科技竞争不应该仅包括技术竞争的单一维度，更不应该通过技术优势遏制他国的科技发展，而应该是在人工智能科技条件下的综合性竞争，通过良性竞争促进全球人工智能和全人类的共同发展。其中就应该包括社会治理竞争，通过社会治理保障社会公平，因而对社会中人与人关系的伦理反思构成人工智能科技竞争的有机组成部分。首先，伦理反思对人工智能科技竞争提出了更高的要求。人工智能的公平性、可信任性、可解释与透明度、安全性不仅是伦理要求，也代表了人工智能技术的发展方向，是人工智能科技竞争需要抢占的技术制高点。科技的发展是为了人的全面发展，因而人的发展内嵌于科技发展要求，伦理反思有助于防止工具主义的泛滥。其次，伦理反思为人工智能科技竞争提供价值引导。伦理反思注重保障人的权利，科技发展并不是社会发展中的唯一衡量因素，我们还应该关注其中多样性的因素，尤其注重保护特殊群体的利益，例如防止数据鸿沟等不良影响。伦理反思有助于实现人工智能的综合性健康发展。

3.人工智能安全与人的全面发展

主持人：科学探究一直以来都是人们认识世界和了解自身的重要认知方式，人工智能等信息产业的革命如何影响着人们的认知方式？

彭家锋：人工智能等信息产业的革命，促进了科学研究新范式——数据科学的诞生，进而对人们的认知方式产生深刻影响。数据科学被认为是继实验、理论和模拟之后的新的科研范式。相较于传统科学，数据科学融合了统计和计算思维，通过人工智能等技术提供的海量数据、强大算法和算力，能够直接从数据中寻找相关关系、提取相关性或者预测性知识，进而产生一种基于相关性的科学思维模式。但这种相关性并不一定能够转化为因果关系，因为可解释性对于从数据科学技术确定的相关性中提取因果解释至关重要，而相关技术一般都缺乏必要的透明度和可解释性。数据科学更可能成为一种预测科学，但是预测并不是科学追求的唯一目标。通过揭示世界的潜在因果结构来解释和干预现象，也是科学的两个重要目标。因此，尽管数据科学能够通过分析大量数据生成相关性知识，却不能直接产生因果解释。对此，传统科学的可检验性假设方法和因果规律探求仍有其重要价值。数据科学并非取代传统科学，相反，两者将相互补充，共同成为人类探索世界的有效工具。

虞昊：显而易见的是，随着人工智能向着通用人工智能迈进，其能够为人们提供的教育资源、生活娱乐、工作讯息也越来越丰富，人们势必越来越依赖于通过与人工智能进行交互来获取外界信息。因此，当人工智能深度地构成人们认知世界的滤镜时，若不对人工智能本身具有重复性、同质性倾向的认知框架保持警醒，人工智能可能扭曲人们的认知方式直至影响人的主体创造性。

邓玉龙：以人工智能为代表的全新技术发展被称为第四次工业革命，其中最显著的特征就是机器与人类的深度融合，机器不再作为一种外在性的工具被人类使用，而是在与人类的深度关联中影响人类的认知方式。一方面，信息产业革命丰富了人类认知的联结方式。人工智能和大数据技术的发展促进人类的分析逻辑从因果关系扩展为相关关系，对相关关系的重视使人工智能可以从大数据而非小数据维度获取信息，为人类认知提供新的视角。按照传统人类认知方式的理解，因果关系要求关于世界的认知是确定性的，而这在数字时代的复杂性社会中很难实现。人工智能对相关关系的认知填补了这一缺失，允许我们在无法掌握确定信息但在掌握大量数据的条件下对未来趋势作出预测。另一方面，如果我们对人工智能等科技的输出结果和生成内容盲目信赖，将结果和内容与经验事实之间进行绝对等同的连接，误认为是事实的全部，那么我们就会丧失人文主义抽象反思的能力，对此我们应当保持警惕，始终坚持反思和批判的人文精神。

主持人：如何调适人的主体创造性与信息高度集成共享之间的关系？

彭家锋：当人们逐渐将更多创造性工作交由人工智能完成，不免让人担忧人工智能是否将会威胁到人的主体创造性。从人机关系的角度来看，这种担忧是基于一种人机敌对论的视角，认为人工智能挤压了人的主体创造性空间，是替代逻辑的延续。但从人机协作的视角出发，将人工智能看作人的得力帮手，通过创造性地使用人工智能可以赋予人类更大的创造性空间。比如，在进行文字写作、多媒体脚本、程序代码、文稿翻译等工作时，可先由人工智能高水平地完成草稿工作，然后再由人类进行一些创造性的调整和发挥。此时人工智能生成的内容将成为进一步创作的原材料，人类将以更高的效率投入创造性活动之中。当然，要实现以上效果并非易事，不仅需要思想观念的转变，还应在制度安排、教育方式等方面作出相应调整。

虞昊：面对信息高度集成共享的人工智能，人有可能转变为算法的动物。试想下述场景：当依据人工智能展开行动变得足够便捷有效时，行动者便会倾向于采信人工智能，此时，看似是人类行动者基于自然语言在进行互动，实则是算法逻辑基于计算机语言在进行数字化运转。于是，人的主体创造性被侵蚀，人可能沦为算法动物。对此类情形，我们应该保持足够的清醒与警惕。

邓玉龙：人工智能技术生成的内容（AIGC）具有高度集成共享的特性，能够高效地对人类知识进行数据挖掘、信息生成。调适人的主体创造性与信息高度集成共享之间的关系，我们需做到如下几个方面：首先，需要通过人的创造性扩大AIGC数据库，当下AIGC主要是依赖于大语言模型，以大量的网络文本作为训练数据库生成的，通过人的创造性生成可以不局限于网络文本，而是进一步扩展数据库的训练文本，从而提高其丰富度。其次，需要通过人的创造性为AIGC提供价值训练，通过人的创造性生成的价值立场、伦理法则等与AIGC的训练数据库相融合，从而建构可信赖、可持续的信息高度集成共享机制。最后，需要将人创造性生成的内容与AIGC共同作为人类知识的来源，人类知识的获得不能仅仅局限于AIGC，而是需要人发挥其主体创造性对人工智能技术生成的内容进行反思和拓展，将人类无法被数据化的、经验性的知识与AIGC数据化的知识融合成为人类知识的来源。

（本版编辑张颖天整理）