算法决策：人工智能驱动的公共决策及其风险* 人工智能在决策系统中的应用研究报告怎么写

发表时间：2023-07-05 11:42:11

算法决策：人工智能驱动的公共决策及其风险*

【内容提要】作为一种自主算法决策，人工智能技术已经渗透到公共决策过程的各个环节，使公共决策模式产生重大变革。本文基于公共政策循环理论的视角，提出了一个人工智能算法对公共政策的问题界定与议程设置、政策制定、政策执行和政策评估四个阶段的影响与应用的分析框架，指出人工智能算法通过其大数据处理能力和预测分析能力，对提高公共决策的科学性、精准性和有效性发挥了巨大的作用。与此同时，人工智能算法存在的算法偏见、预测偏差和算法“黑箱”等问题可能引发公共决策失灵和合法性危机。最后，本文还提出，为了合理利用人工智能技术提高公共决策的有效性，规避算法决策的风险，决策者应关注人工智能算法决策与人类常规性决策的应用范围、适用性以及两者之间的互补协调关系，同时在算法驱动的公共决策各个环节中加强公共参与，建立参与式算法决策框架。【关键词】人工智能,算法决策,公共决策,风险与挑战

一、引言

人工智能（artificialintelligence，AI）是计算机科学的一个分支，其目的是开发一种具有智能行为的机器，实现在没有明确编程命令的情况下，使计算机自主采取行动。机器学习和大数据是人工智能的两大核心要素。机器学习是人工智能的大脑，是支持人工智能的基础算法；大数据则是实现人工智能算法运算的基础原料。机器学习基于算法来解析和训练数据，进行学习，从现实世界中识别模式，发现趋势，作出预测和决策，并在此基础上执行特定任务。算法就是对解题方案的准确而完整的描述，是一系列解决问题的清晰指令。算法代表着用系统的方法描述、解决问题的策略机制，对一定规范的输入，在有限时间内获得所要求的输出。从本质上说，人工智能就是一种基于算法的自主决策系统。以大数据为基础的，以机器学习及深度学习算法为核心的人工智能自主决策系统被称为算法决策（Zouridis，vanEck&Bovens，2020）。

决策是行政行为的核心。一方面，随着人工智能的兴起，人工智能对公共决策系统中的官僚与专家决策等常规决策模式起到了重塑作用。目前，国内外学者对大数据驱动的公共决策优化研究较为丰富，如大数据影响“公共决策循环”的模型化研究（Höchtl，Parycek&Schöllhammer，2016），大数据驱动的议程设置信息化、备择方案讨论全民化、决策执行自动化、决策评估实时化以及全过程跨领域综合集成化等五个方面的公共决策创新研究等（陈一帆、胡象明，2019）。但是，人工智能算法对公共决策过程和环节如何发挥影响，影响机制是什么等问题尚未在理论和实证层面上得到充分回答。另一方面，算法决策的风险问题也引起越来越多的警惕和探讨。部分学者对人工智能应用于公共决策持谨慎态度，认为人工智能算法的内在缺陷及其不当使用，如算法偏差、算法错误、算法歧视、算法“黑箱”、审查难等问题（Osoba&Welser，2017；Chiao，2019），将产生严峻的行政伦理问题，如人工智能对决策公平、公正、透明性和可问责性的挑战，侵犯公民信息隐私权，加剧社会不平等（于文轩，2017）。然而，这些探讨较少分析人工智能算法决策在公共决策过程中产生的风险的具体形式及其来源。

借鉴大数据驱动的公共决策循环模型（Höchtl，Parycek&Schöllhammer，2016），以及人工智能对政府与公共政策影响的最新研究（Valle-Cruzetal.，2019），本文首先基于政策学者对政策过程经典的四个阶段划分（Dunn，2015），发展一个人工智能算法在公共决策领域中应用形态与作用机制的分析框架，呈现人工智能对公共决策各阶段与过程的深刻影响。其次，本文将对公共决策各个阶段的算法决策风险及其来源问题进行探讨。最后，本文还将讨论如何平衡人工智能算法决策与常规决策之间的关系，阐述这两类决策机制的适用范围和互补关系，并对提高算法决策的公众参与性，规避算法决策的风险提出若干政策建议。

二、人工智能驱动的公共决策：一个分析框架

人工智能在公共决策中巨大的应用潜力源于人工智能的两大基本能力。第一，人工智能的大数据生成和处理功能为公共决策提供了丰富的决策信息。信息是决策的基石，在决策的全过程中发挥至关重要的影响。在充斥着复杂性和不确定性的决策环境下，海量的信息充斥在各个领域和活动中。然而，信息规模越大，信息的结构性就越差。相当大比例的数据呈现非结构形态，如图像数据、自然语言数据、文本数据、语音视频数据等。据国际数据公司（InternationalDataCorporation，IDC）的预测，2018年到2025年之间，全球产生的数据量将会从33泽字节（ZB）增长到175泽字节，其中超过80%的数据都是处理难度较大的非结构化数据。①然而，人类的思维能力和运算速度十分有限，在搜集和处理海量非结构化数据时存在着成本高、速度低和准确率低的劣势。非结构化数据需转化为计算机可以处理的结构化数据才会方便决策者进一步分析。人工智能的机器学习与深度学习方法凭借文本挖掘、知识库自动构建、图像视频识别与生成、自然语言处理等技术，快速、便捷且大规模地将非结构化数据转化为结构化数据。例如，对于语言形式多样而意义模糊的自然语言数据，人工智能可以减少文本的模糊性，识别不同的词汇，连接语言中的逻辑，解读语言的背景知识，对语言与文本进行标记和分类。当前，人工智能可以快速地阅读海量的政策文本，并对政策内容进行分类（Rice&Christopher，2021）。人工智能的图像识别技术通过抽取识别图像的各种特征，帮助网站运营商和政府网络监管部门对视频和图片进行质量、版权、涉恐涉黄鉴别和标记。

第二，人工智能机器学习算法的预测分析能力为公共决策提供直接的支持。人工智能使用算法来分析数据，并从中学习，从而对现实世界中的事件作出决策和预测。由人工智能算法驱动的决策基于大数据和高纬数据筛选预测因子，建构非线性和高度交互的预测模型，非常准确地预测了高度复杂的现象与数据间的关系（Mullainathan&Spiess，2017）。人工智能算法决策在提升预测的精确性上具有人脑判断、专家预测和传统统计模型无法比拟的优势。首先，由于人脑获取和处理信息能力的局限、非理性的偏见和情感因素的影响，人脑的预测效果远不及统计模型（Grove&Meehl，1996），而传统的统计模型无法应对现实世界的变量间复杂而模糊的关系与模式，难以准确地还原真实的数据生成过程，以因果推断为目标的传统统计模型的预测能力十分有限。与传统统计模型不同，人工智能算法主要关注的是预测的准确性，允许数据自己决定变量的拟合过程，从而尽可能精确地拟合实际的数据点，随着模型拟合的准确性的提高，人工智能算法的预测能力也就越强。人工智能算法凭借其优越的预测分析能力为公共决策提供了强大的智能支持。

21世纪，特别是2010年以来，人工智能对公共决策的介入呈现一个由浅到深，由边缘到核心的过程。人工智能最初对公共决策的影响主要集中在简化政府一线服务部门工作流程，改善市民服务和提高机构办事效率方面，如自动回答市民问题，辅助工作人员填写和搜索文档，对顾客需求进行分类和选择服务路径，翻译和起草文件等（Mehr，2017）。一项研究表明，人工智能的自动化能力可以帮助工作人员在执行记录信息、处理文档表格等基本行政任务时节省30%的时间（Viechnicki&Eggers，2017）。随着政府活动对人工智能算法开放度越来越高，人工智能算法也开始介入公共决策的核心环节，如政策制定、执行与评估环节，并且参与到政府的一些核心公共服务与决策领域，如公共交通、医疗、教育、环境、公共安全与社会福利领域。算法驱动的公共决策的典型案例包括美国沃森人工智能（WatsonAI）辅助医疗诊断，中国杭州和新加坡等地城市智慧交通信号灯与拥堵预警系统，美国洛杉矶等地实施的人工智能犯罪区域风险预测和火警检测系统等（Berryhilletal.，2019）。在这一阶段，算法决策的任务不仅仅是简化行政流程，处理程序性和重复性任务这些简单的行政工作，而且是充分发挥人工智能的大数据处理和分析预测能力，提高公共服务的效率、质量和精准性，创新公共服务的供给，甚至决定资源配置和权利分配这些公共决策的核心问题。

那么人工智能的大数据处理与预测分析能力如何与公共决策相结合，为公共决策系统提供支持呢？本文发展了一个人工智能驱动公共决策过程的分析框架，呈现人工智能对政府公共决策各个阶段的深刻影响。为了便于简洁地理解复杂的公共政策系统和决策过程，政策学者把政策过程划分为四个相互联系的阶段：政策问题界定与议程设置、政策方案设计与政策制定、政策执行，以及政策评估。笔者将逐一探讨在公共决策的四个阶段中，人工智能的两大功能如何发挥作用（见图1）。表1概括了人工智能的大数据处理和预测分析在决策四个阶段中的具体实践形态及其影响。

（一）人工智能、政策问题界定及议程设定

政策问题界定和议程设定是公共决策过程的起点，公共决策首先要确定政策应该优先解决哪些问题？对政策议程设定的研究主要关注两类问题：一是社会问题的性质是什么，政府干预这一问题的必要性何在，即问题界定。问题界定在议程设定过程中发挥着特殊作用，社会问题能否进入议程在很大程度上取决于问题如何被社会认知和建构，如问题产生的结果是好的还是坏的，问题的重要性程度如何，以及问题是否有解决的方案（Baumgartner&Jones，2015）。二是在大量社会问题中，哪些问题被决策者所关注，这些问题如何进入政策议程，即政策议程设置。政府内外的行动者总是寻求以各种手段来影响问题界定和议程设定过程。传统上，除了政府决策者外，新闻媒体的传播，专家学者的决策咨询和利益集团的游说活动等都是影响政策议程的重要手段（Kingdon，1995）。议程设定过程的核心是如何使政策问题从公共议程上升到决策者注意力范围内，并进入正式政策议程。现有研究发现，有多种模式推动了政策问题进入决策议程（Howlett&Ramesh，2003）：第一种是外部倡议模式，即社会力量通过动员公众支持推动政府关注某一政策问题；第二种是内部倡议模式，指的是决策相关者不用公众支持而影响议程，如利益集团独立动员某些社会群体直接影响政府决策；第三种模式是支持动员模式，是没有公众参与的决策议程初步确定后，政府再动员公众支持该项政策问题；第四种模式是整合模式，即当一项政策问题已经获得公众的广泛支持和共识后，政府再顺应民意推动议程建立。在大数据时代，人工智能是影响问题界定和塑造议程设定模式的重要手段，通过不同于传统的媒体、利益团体和专家行为的方式发挥影响。

首先，人工智能的大数据处理能力是政府内外各类行动者界定问题的重要工具或平台。在大数据时代，微博、微信、推特和脸书等在线社交工具成为重要的线上公共问题讨论和决策参与平台，社交媒体大数据作为重要的公共舆论形态，是决策者获取信息和议程设置的重要来源。一方面，政府决策者在设置政策议程时越来越重视网络大数据和在线公共舆论。当一项公共问题引发热议或舆论风暴时，决策者可以利用人工智能技术，如自然语言处理、文本情感分析、数据挖掘和图形识别等分析事件或问题引发的舆论动向，如舆论内容、舆论情绪及其变化趋势与传播途径等，从而有助于决策者掌握事件或问题成因，对其可能产生的政治社会后果进行精准识别，决定是否将该事件纳入政策议程。在这种意义上，人工智能算法可以有效地实现议程设定的外部动员，使得某些政策问题可以快捷地进入政策议程。另一方面，决策者面临的问题信息高度庞杂，而决策者在注意力、认知能力和信息处理能力方面存在局限性（Workman，Jones&Jochim，2009），某些社会问题的利益相关者倾向于利用人工智能技术搜集和处理有利于自身利益的数据，特别是社交媒体数据，随后对这些数据进行结构化处理，将结构化数据传递给政府决策者。因此，人工智能的大数据处理能力助力议程设定的内部动员，有助于某些利益团体所偏好的政策问题引起决策者的注意力，从而推动这些问题进入决策议程。

其次，决定决策者是否把某项问题纳入政策议程的一个重要考虑是问题自身的性质，对于那些过度复杂、成因未明，或者现阶段缺乏解决方法的问题，决策者很难将其纳入决策议程（Anderson，2003）。人工智能的预测分析能力，可以帮助决策者预测问题的发生概率、复杂性或严重程度，或者分析问题的成因、后果以及解决思路，从而辅助决策者判断哪些问题可以成为政策问题。在议程设置阶段，人工智能的预测分析能力得到较为普遍的应用。在经济领域，政府利用人工智能技术进行未来年度的经济预测，为中长期经济政策的制定提供基础。在公共卫生领域，“谷歌流感趋势”通过分析以“流感检测”为关键词的几十亿次搜索记录来预测流感发病率，在初期预测的准确率很高，辅助疾控部门决定是否启动流感紧急应对程序（Butler，2013）。在公共安全领域，政府部门通过对社交媒体的大数据分析和处理，判断抗议、骚乱等危机爆发与蔓延的趋势，从而提前采取维护秩序和防止冲突升级的政策措施（Leetaru，2011）。

（二）人工智能与政策制定

政策备选方案的提出和选择是公共决策的关键步骤，特别是政策方案的抉择也被称为最典型的决策过程。根据理性主义政策分析模式，政策制定过程需要首先明确政策目的，继而理性地分析备选方案，同时政府部门通过使用各类知识、技术和工具完善方案设计，然后陈述各个政策方案，按照标准对方案效果进行评估和预测，最后对方案进行选择（韦默、瓦伊宁，2013）。在现代社会中，政策方案是否被接受取决于多种因素，其中两个基本因素尤为受到关注：一是方案的合法性和政治支持，被公众特别是目标群体广泛接受的政策方案无疑具有更高的合法性；二是政策方案的技术可行性和实施效果的可预期性。

在方案设计和制定环节，政策制定者需要借助各种倡议活动，利用专家知识、技术工具，特别是信息收集和处理技术使得方案具备合法性和满足绩效条件。整个政策方案的设计和选择过程都是建立在信息处理的基础上，人工智能算法凭借其信息处理和预测分析能力，在政策方案设计和制定环节中发挥着显著的作用。首先，人工智能可以推动对备选方案进行充分的公众选择和讨论，从而有助于优化备选方案的质量，并且使方案获得广泛的公众支持，为政策执行创造良好的环境。人工智能的自然语言处理等技术可以对互联网，特别是新兴社交媒体上公众关于政策方案的建议、评论、留言等非结构化数据进行深入的文本挖掘和情感分析，从而确定这些数据的特征趋势，识别其中的不同政策偏好（Kamateri，2015：71-77）。其次，人工智能模型的强大预测能力可以精准预测各个政策方案的实施效果，为方案的选择提供依据。在政策方案选择的传统成本收益分析框架中，人工智能算法可以预测政策的成本和收益，从而指导政策方案的选择。在医疗政策领域，人工智能算法被用于预测个体潜在的疾病风险及医疗成本，并基于预测结果指导医疗政策重点干预那些具有较高患病风险的对象，以及治疗成本更高的病人。这不仅可以使得有限的医疗、护理资源得到合理配置，而且能够控制医疗费用的增长。在预测政策成本前，决策者还需要识别政策目标群体，例如要预测某项税收优惠政策的成本，那么必须先预测这项政策所涉及的目标群体数量，从而计算税收优惠可能导致的减税总额。在美国十分流行的人工智能算法辅助司法决策中，对于犯罪嫌疑人的处理有不同的政策方案：关押等待审讯、取保候审以及直接入狱。使用人工智能算法，根据既有的犯罪数据，基于犯罪嫌疑人特质、案件信息等相关特征，预测他们再次犯罪的概率，从而决定他们是入狱还是被取保候审（Kleinbergetal.，2017）。

（三）人工智能与政策执行

无论是强调明确政策目标和决策者控制能力的自上而下的模式，还是强调决策执行部门自由裁量权以及上级决策者与政策执行部门上下协调互动的自下而上的模式，政策执行最核心的症结就是信息不对称问题。执行者比政策制定者，政策目标群体比执行者具有信息优势，他们很容易消极执行政策或者规避政策，决策者及时而充分地获取政策执行信息，就能有效地对执行过程进行监督或协调。人工智能算法能够为执行过程提供实时而充足的执行信息，缓解因信息偏差和不对称而导致的执行偏差和梗阻问题。在政策执行环节，人工智能基于其预测分析和大数据处理能力对目标主体与执行方案进行精准选择（Höchtl，Parycek&Schöllhammer，2016）。

第一，人工智能的大数据处理能力使得决策者获取和处理政策执行信息的能力有了巨大的提升。人工智能可以实时获取海量的政策执行数据，并对非结构化数据进行结构化处理，从而把结构化数据迅速传输给决策者和政策执行部门。在交通和社会治安领域，基于人工智能的摄像与人脸识别系统可以实时传输人车流量和道路交通拥堵状况、街道人群密集程度和可疑人物等信息。在新冠疫情防控战役中，口罩佩戴识别、自动测温、防疫健康信息码等基于人工智能算法的疫情防控系统被广泛使用，使得疫情防控部门可以第一时间获取中高风险对象的特征、行程及其密切接触对象等信息。

第二，人工智能的预测分析能力可以辅助决策者识别政策执行的目标主体、重点对象和执行方案，提高执行的自动化程度。在政策执行过程中，哪些目标群体是政策执行的主要目标，执行过程中哪些环节或领域可能出现问题，针对不同的问题，哪些执行工具和方案更为有效，这些问题都是决定政策执行成败的关键。人工智能基于对执行中信息的分析，能够精准地预测哪些执行问题会出现，出现的概率是多少，或者根据个体的社会经济特征和行为模式精准识别政策的目标群体及其行为，从而可以显著提高执行的精准性和成功率。在交通领域，人工智能系统可以根据街头实时反馈的路况数据，预测道路拥堵程度，从而自动变换红绿灯，减轻交通拥堵程度，减少行人车辆等待时间。

（四）人工智能与政策评估

政策评估是政策执行中的动态信息或执行完成后对绩效与结果的评价和反馈活动。在公共决策环节中，对政策绩效进行评估一直是一个难题，主要的障碍是政策绩效信息难以测量或难以搜集和处理，而且缺少科学准确的评估方法。此外，政策评估也是一个政治行为，某些部门为了避免被追究责任，保持组织稳定而刻意使政策目标模糊而难以测量，使得政策评估流于形式（Hood，2002）。在大数据时代，人工智能算法可以有效缓解由于信息短缺、监控无力以及部门利益等因素导致的政策评估难题。人工智能可以广泛用于对于政策执行实时数据的反馈和政策执行效果的监控与预测，在解决绩效信息获取和测量难题方面上具有独特的优势。一方面，人工智能的大数据处理能力将帮助决策者第一时间获取政策执行的实时数据，实现持续的政策评估。人工智能对执行系统的反馈数据、外部的新闻报道、社交媒体等数据的挖掘，可以帮助决策者迅速发现政策执行走样现象，监测到官员的违规行为或执行目标的违背政策行为，极大地促进了对政策实施效果进行实时评估。另一方面，决策者利用人工智能算法对政策实施效果进行精准预测，政策实施后把人工智能的预测结果和实际结果进行比较，评估政策预测结果的实现程度。在教育领域，美国华盛顿哥伦比亚特区利用教师绩效评估系统（IMPACT），基于教师教学技巧、行为管理和学生成绩的9个绩效指标，利用人工智能算法预测和评估教师工作绩效并进行打分（Cameron，2017）。

尽管对政策过程四个阶段的划分和论述有助于启发我们理解政策过程的基本面貌和要素，但是实际的政策过程中各个环节都呈现交叉融合、高度互动和循环往复的特征（Sabatier，1999）。首先，政策执行与政策评估相互融合交织，执行过程中决策者时刻关注政策效果，对政策实施情况进行实时监督与评估。其次，政策执行、政策评估与政策制定环节也密不可分，决策者通过对政策执行的监控和对政策效果的评估，不间断地调整和改变政策目标和政策方案，对政策方案进行再制定。最后，政策方案制定环节与政策议程设置环节也是循环往复、来回互动的，政策方案的设计、政策工具的选择在很大程度上取决于政策问题的界定和利益相关方对议程设置的影响，当问题界定发生变化时，政策方案也会被重新设计。由于现实政策过程具有非线性的来回往复、互动互构属性，算法驱动的公共决策过程也呈现上述特征。一些政府部门利用人工智能技术对包括社交媒体在内的互联网使用者发帖和评论大数据的搜集和处理，可以第一时间评判政策执行过程中公众的意见和反馈的问题，为决策者调整政策或执行方式提供支持，这一过程就包含了政策执行、评估和政策再制定等内容。我国部分省份扶贫与农业资金管理的“互联网+监察”平台通过对资金直接发放的数据进行脱敏和分类处理后，在数据平台上统一公布，最大限度地对社会公开，公众可以直接在平台上查询自己和他人的补贴信息，对于不恰当或违法的资金使用情况进行投诉和举报（邬彬、肖汉宇，2020），这个人工智能算法平台同时实现了政策执行监控和政策效果评估的目的。

三、人工智能算法决策的风险

尽管人工智能算法决策极大地提高了公共决策的技术理性，然而，现实中人工智能算法并不完美，存在着算法偏差、偏见和不透明等风险，对公共决策循环的各阶段都可能带来不同程度的威胁，对公共决策的公正、公开等公共价值产生潜在的危害，从而导致不可忽视的政治社会问题。

（一）问题界定与政策议程设置阶段的算法风险

在这一阶段，人工智能引发的决策风险主要体现为数据自身的偏差以及人为操纵问题引发的预测失败和偏误，由此导致问题界定与政策议程设置的偏离与错误。人工智能算法的大数据处理和预测分析技术都强烈依赖历史训练数据的特征和模式，历史数据的偏差和偏见很可能导致人工智能数据处理和预测分析结果的偏误。在问题界定时，决策者利用人工智能处理相关数据，分析并预测问题的形式及其成因，然而即使是大数据也未必能反映数据的全貌，大数据的代表性有时反而不如抽样数据。特别是当前的人工智能使用的大数据多是来源于包括社交媒体在内的互联网和传统新闻媒体，这些数据背后的用户分布不具有人口统计学上的代表性，利用这些大数据做出的问题界定和公众态度分析很可能是不真实的。更严重的是，部分社交媒体的公众态度与意见也是不稳定的，很容易受到一些突发事件、媒体倾向性报告的影响，或者受到部分意见领袖舆论操纵与网络事件的积极参与者策略性发声的干扰，这时经过人工智能分析后进行的问题界定和提出的政策议题很可能偏离真实的公众偏好，甚至反映的是部分人群和特殊利益集团的偏好。其中一个典型的现象是网络上假新闻和煽动性信息的泛滥，不仅加剧了社会分裂与政治冲突，而且容易操纵公众态度，误导政府决策行为。②

（二）政策方案设计与决策阶段的算法风险

在政策方案设计与决策阶段，人工智能算法决策的主要风险表现为两个方面：一是政策方案受人为舆论操纵而形成虚假支持，导致政策方案“劣币驱逐良币”；二是人工智能算法预测的巨大偏差导致政策方案失败引发的政治社会风险。首先，政策方案设计阶段同样可能出现虚假公共舆论或公众舆论被人为操纵的问题。一些政治团体、极端组织或者特殊利益团队可能利用人工智能技术自动生成虚假或欺骗性信息，传播极端仇视性言论攻击不利于其自身的政策方案，或竭力鼓吹符合自身利益的政策方案，进而诱导公众舆论导向，推动或阻止立法通过某些政策方案。③其次，人工智能对政策方案成本收益与政策实施效果的预评估也很可能出现偏差。一些人工智能算法基于陈旧的数据，或者有偏误的历史数据，提出的政策方案本身就是有偏差的，或者只适用于特定场景和国情下的政策问题，面临新政策环境时很可能无法产生作用。在人工智能医疗领域，沃森肿瘤人工智能治疗方案就受到很多非议，批评者认为沃森肿瘤人工智能诊疗主要是基于医学期刊文章和专家提出的虚拟案例建立预测模型，训练数据中很少有现实的肿瘤诊疗病例，这就导致沃森肿瘤人工智能系统很可能无法给出准确的方案，甚至给出的治疗建议与标准化的治疗指南相冲突（Ross&Swetlitzi，2017）。

（三）政策执行阶段的算法风险

在政策执行环节，人工智能算法决策的风险主要体现在由于存在算法偏差和“黑箱”问题而产生的执行偏差与失败，引发公共政策合法性危机。尽管人工智能算法通过不断改进数据质量，调整模型参数和更换更高级的算法能够提高预测的准确率，但是预测误差和失误总是难免，没有一个算法的预测准确率是100%。如果输入模型的数据本身有着系统性偏差，那么就会给模型预测结果带来极大的偏误。在政策执行过程中，有偏误的人工智能系统可能会对政策目标群体识别失败，产生假阳性和假阴性两类误差问题。假阳性误差使得执行者把不符合政策特征的错误对象当作正确对象处理，导致政策执行成本上升或政策资源的浪费。假阴性误差则会把正确的政策对象排除在外，导致政策执行严重扭曲甚至失败。人工智能导致在政策执行中产生假阴性误差并不少见。在卫生领域，从2009年到2018年，英国国家健康系统的乳腺癌筛查调度软件出现预测误差，导致约45万名68岁到71岁的女性失去了最后一次进行乳腺癌检查的机会，其结果可能致使135人到270人提前死亡（Charette，2018）。

算法决策的“黑箱”和不透明特征使得政策执行缺少透明性和参与性，损害了政策执行的合法性。政策执行具有合法性的前提除了政策的有效性外，另外一个重要原则是保证过程的公开公平和民主参与。在官僚体制的技术理性主导下，政策执行的透明性和参与性已经遭到很大的削弱。然而人工智能算法的“黑箱”特征使得算法决策面临更加显著的决策不透明、责任不清晰、问责难度大的困境。首先，复杂精巧的人工智能算法本身就是一个“黑箱”（Burrell，2016）。尽管使用者知道算法预测结果和准确度，但是由于模型拟合过程涉及大量变量和数据，预测因子和结果之间缺少因果联系，预测过程往往太过复杂而难以直观理解。算法决策的“黑箱”特征一方面导致政府部门使用者只能选择相信算法的准确性和公正性，使得算法决策无法得到有效监督和及时纠正。另一方面，对于政策目标群体，由于政府部门无法解释算法决策过程，公众当然也不能理解算法决策的正当性，这就导致算法决策难以获得公众的支持和信任。其次，人工智能算法决策可能使得执行失误的责任归属难以界定，加大公众问责的难度。当前公共决策算法机器系统都是由第三方公司开发维护，一旦发生由算法失灵而导致的决策失误，就可能引发重大社会问题和损失，责任追究和政治问责将面临更大的难度。政府部门可能将责任推给算法和算法开发公司，算法开发公司则以商业秘密为由拒绝公开接受外部审查，其结果使得问责过程漫长而难以产生定论。英国乳腺癌筛查漏检丑闻发生后，英国国家卫生医疗服务体系（NHS）、公共卫生局（PHE）以及负责软件开发的日立咨询公司都在相互指责对方（Donnelly，2018）。

（四）政策评估的算法风险

在政策评估环节，算法决策的主要风险来自评估中存在的算法歧视和偏差问题。尽管人工智能基于其大数据挖掘和生成能力能够实时获取政策执行信息，但是人工智能系统获取的执行信息并不总是公正和准确的。人工智能算法最主要的偏见可能源于数据本身。一方面，可能由于数据样本较小，训练集数据与整体数据分布存在较大的偏差，使得使用训练集拟合的模型无法对样本外未知数据进行准确的预测。另一方面，即使样本数据量够大，但是数据集也可能出现历史遗留的数据偏误问题。人工智能模型基于历史数据做出预测，由于政治社会体制、人类决策和文化中的既有偏误，有些历史数据本身就是高度不平衡的。数据集存在的不平衡性使得某类群体数据在样本中被过度代表，而其他类型的群体则代表性不足，导致在预测模型中，某些预测因子偏向于某类群体，典型的例子就是人工智能算法中存在种族和性别偏见问题。很多美国法院使用北角（Northpointe）公司基于人工智能算法设计的犯罪风险评估系统（CriminalRiskAssessment）预测犯罪行为。然而，2016年，知名的非营利媒体“为了人民”（ProPublica）调查发现，美国一些法院使用这套系统预测犯罪风险和法庭对犯罪嫌疑人进行保释和量刑决策时，认为黑人比白人再次犯罪的概率更高，这种不利于有色人种的人工智能犯罪风险评估在美国司法系统里越来越普遍。④导致预测偏见的根源是美国历史上犯罪和再犯罪统计中黑人等有色人种比例过高，美国司法体系对黑人等有色人种的歧视问题十分突出（Angwinetal.，2016）。

此外，一些程序性的行政任务执行过程比较简单，人工智能评估可以保证较高的准确性和公正性，但是对于政策绩效难以测量的活动，人工智能评估系统难以做到准确可靠，再加上决策者和政策执行者的偏好，以及利益相关者的机会主义行为导致的政策执行过程的扭曲和偏差，使一些偏误和虚假的信息大量涌现，从而使得人工智能在政策评估时发生偏差。在教育领域，2011年美国休斯敦市独立学区利用算法模型“教育增值评价系统”，根据学生的标准化测试成绩来决定教师的奖金，随后学区还进一步使用这一算法来决定教师的聘用，此举引发了教师工会的强烈不满。他们认为该系统评估、评价的学生标准化成绩并不能完全反映教师的工作投入，而且决定学生成绩的因素很多，有些是教师无法掌控的，因此该系统的评估结果既不准确也不公平。后来经过评估，发现这一系统的预测过程不仅难以解释，而且结果也不精确，法院最终推翻了该算法的决策（Zeph，2017）。

四、政策建议

基于对人工智能驱动公共决策过程及其风险的论述，本文对公共决策者如何合理利用人工智能技术提高公共决策的有效性，同时规避算法决策的潜在风险，提出相应的政策建议。

（一）合理选择算法决策与常规决策

在公共决策系统中，根据算法对决策过程主导性的高低，算法决策和人类常规决策之间的关系及其互动形态主要呈现以下三种模式（Zouridis，vanEck&Bovens，2020）：第一种是算法自主决策模式。这类模式中，算法取代人类常规决策，决策过程完全自动化，人类决策者几乎没有自由裁量空间，近乎听命于算法。这类模式的典型形式如对城市道路等市政设施坏损的智能监控与预警。第二种模式是算法辅助模式，算法在公共决策中发挥着重要作用，对人类常规决策起到辅助和支持作用。但是，人类常规决策仍然是主导性的，人类决策者对算法辅助过程保持着独立的判断、干预和控制。当下，算法辅助模式应用范围越来越广泛，除了一些公共安全和应急管理决策，如火警、犯罪热点地区、安全卫生检测外，还进一步发展到对公民社会权利和资格的分配领域，如社会救助对象界定、疾病预测、考试成绩判定、教师绩效评估等。第三种模式可以被称为算法咨询模式。这个模式里，算法对公共决策是可有可无的，算法介入决策的程度不深，大多情况是在数据收集过程中被选择性地使用。算法对人类常规决策只起到决策咨询的作用，如提供相关数据信息，算法预测的结果也只是作为人类常规决策的参考，并不会对人类决策起到决定性作用或重要的辅助作用。

上述三种决策模式的选择主要取决于决策任务和场景的特征。主流观点认为，人工智能在决策中的优势主要体现在高度重复性、机械性或日常性的行政程序性场景中，不需要官僚行使过多的自由裁量权和进行价值判断（Bullock，2019）。这类决策场景任务相对简单直观，有一套固定的决策程序，同时能够产生海量的具有重复性行政大数据，数据间关系也易于理解，从而有利于发挥人工智能大数据生成和预测分析能力，因此比较适合算法主导和算法辅助的决策模式。在公共政策过程的几个环节中，相对而言，事务性问题界定和程序性政策执行阶段更适合算法主导模式。但是，另一方面，在一些具有高度复杂性的，需要较多自由裁量权、价值判断和灵活处理的政策制定、执行和评价等政策过程，人工智能就不擅长了。一项研究表明，政府决策者对待算法决策的态度随着决策任务复杂性的增加而趋向消极，决策复杂性越高，决策者对算法决策的认可度就越低（Nagtegaal，2021）。在高度复杂的任务中，人类决策应该是主导性的。此外，公共政策制定过程除了要求有提高效率，降低成本等技术理性外，更重要的是要遵守公正、公开与合法性等公共价值原则。对于涉及价值判断、社会鉴别和伦理评价等活动，如人的生命安全、人身自由、社会权利分配，应该避免由算法主导决策。在这些领域，公众更加偏好常规性的官僚决策或公众参与政策制定，对算法有着天然的不信任感和恐惧心理，任何微小的人工智能预测偏差都可能引发公众的强烈不满和政治争议。总之，应避免对人工智能技术及其推动的算法决策的迷信，审慎决定哪些类型的公共政策的决策适用于人工智能技术，平衡算法决策和人类常规决策的关系，实现算法决策和人类决策各就其位，各得其所，通过相互协调和配合提高公共决策的效率和合法性。

（二）建立参与式的算法决策框架

在算法驱动的公共决策各个环节中加强公共参与，建立参与式的算法决策框架。公共决策的本质特征在于“公共”，公共的价值观包括决策结果的公平公正，以及决策过程的公开和公众参与。算法驱动的公共决策过程也应该尊崇上述公共决策的基本价值观。针对算法决策中存在的“黑箱”和歧视问题，公开与公众参与理应占据更重要的角色。算法决策各个环节的公众参与也是避免人工智能算法决策风险的关键。因此，本文倡导建立参与式的算法决策框架，这个框架应该包括以下几个要素：第一，要吸纳政策相关者和利益主体参与算法的设计，算法决策方案的制定和选择过程中。为了避免因数据偏见和偏差问题而导致的问题界定和议程设置的偏离和谬误，应通过大规模公众调查、代表性利益相关方的访谈与协商恳谈会等民主参与方式进行算法设计和构建，并提高算法的公开性和透明性，如通过协商或投票等公众参与方式来确定算法应该使用的特征集。第二，算法决策的结果在政策方案制定或实施前，应该向社会公开，接受公众和利益相关方的意见和反馈，最后再决定是否采用或实施。在条件允许的情况下，将算法决策提供的方案和人类决策制定的方案进行比较，涉及敏感的权利分配决策时，要看算法决策是否比人类决策更能促进分配的公平性。第三，由于算法存在的偏差或失误可能引发政策执行的偏差与失败风险，应在政策执行过程中建立公众参与和干预机制。本文建议建立人工智能研究人员与社会科学、人文、性别、医学、环境和法律等方面的专家进行合作交流的制度体系，如在政府或公司层面建立人工智能伦理委员会，委员会成员由各领域专家、企业和政府人士构成，对算法系统进行政治与伦理审查。当决定使用人工智能进行公共决策时，除了政府决策者和算法设计者，利益相关者和公众都应该有权利和机会监控人工智能算法决策运作全过程，特别要警惕模型可能产生的偏见、歧视和不公平问题。在问题和风险产生时决策者应及时进行干预，并且为受到不公正待遇的群体提供权利救济。

*本文得到国家自然科学基金青年项目“我国地方财政结余对财政支出周期性影响及其机制研究”（项目编号：71904130）和深圳市教育科学规划2020年度课题重点资助项目“先行示范区战略下深圳市高等教育产研融合效率评价与机制优化研究”（项目编号：zdzz20003）资助。

参考文献：

陈一帆、胡象明，2019，《大数据驱动型的公共决策过程创新及效果评估——基于SSCI和SCI的文献研究》，载《电子政务》第8期。

［美］戴维·L·韦默、［加］艾丹·R·瓦伊宁，2013，《公共政策分析：理论与实践》，刘伟译校，北京：中国人民大学出版社，第15—20页。

邬彬、肖汉宇，2020，《大数据应用与腐败治理：基于“互联网+监督”的深度个案研究》，载《暨南学报（哲学社会科学版）》第10期。

于文轩，2017，《大数据之殇：对人文、伦理和民主的挑战》，载《电子政务》第11期。

Anderson,J.E.,2003,PublicPolicymaking:AnIntroduction,Boston:Houghton,MifflinCompany.

Angwin,J.,J.Larson,S.Mattu,&L.Kirchner,2016,“MachineBiasThere’sSoftwareUsedAcrosstheCountrytoPredictFutureCriminals.AndIt’sBiasedAgainstBlacks,”Propublica,https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing，2020年6月16日访问。

Baumgartner,F.R.&B.D.Jones,2015,ThePoliticsofInformation:ProblemDefinitionandtheCourseofPublicPolicyinAmerica,Chicago:UniversityofChicagoPress.

Berryhill,J.,K.K.Heang,R.Clogher,&K.McBride,2019,Hello,World:ArtificialIntelligenceandItsUseinthePublicSector,OECDWorkingPaperonPublicGovernance,No.36.

Bullock,J.B.,2019,“ArtificialIntelligence,Discretion,andBureaucracy,”TheAmericanReviewofPublicAdministration,Vol.49, Iss.7.

Burrell,J.,2016,“HowtheMachine‘Thinks’:UnderstandingOpacityinMachineLearningAlgorithms,”BigData&Society,Vol.3,No.1.

Butler,D.,2013,“WhenGoogleGotFluWrong,”Nature,Vol.494,No.7436.

Charette,R.N.,“450,000WomenMissedBreastCancerScreeningsDueto‘AlgorithmFailure,’”IEEESpectrum,https://spectrum.ieee.org/riskfactor/computing/it/450000-woman-missed-breast-cancer-screening-exams-in-uk-due-to-algorithm-failure,2021年8月17日访问。

Chiao,V.,2019,“Fairness,AccountabilityandTransparency:NotesonAlgorithmicDecision-MakinginCriminalJustice,”InternationalJournalofLawinContext,Vol.15,SpecialIss.2.

Donnelly,L.,2018,“BreastScreeningScandalDeepensasItFirmSaysSeniorHealthOfficialsIgnoredItsWarnings,”TheTelegraph,May4,https://www.telegraph.co.uk/news/2018/05/04/breast-screening-scandal-deepens-firm-says-senior-health-officials,2020年6月16日访问。

Dunn,W.N.,2015,PublicPolicyAnalysis:AnIntroduction,NewYork:RoutledgeTaylor&FraneisGroup.

Grove,W.M.&P.E.Meehl,1996,“ComparativeEfficiencyofInformal(Subjective,Impressionistic)andFormal(Mechanical,Algorithmic)PredictionProcedures:TheClinical-StatisticalControversy,”Psychology,PublicPolicy,andLaw,Vol.2,No.2.

Höchtl,J.,P.Parycek,&R.Schöllhammer,2016,“BigDatainthePolicyCycle:PolicyDecisionMakingintheDigitalEra,”JournalofOrganizationalComputingandElectronicCommerce,Vol.26,Iss.1-2.

Howlett,M.&M.Ramesh,2003,StudyingPublicPolicy:PolicyCyclesandPolicySubsystems,OxfordUniversityPress.

Hood,C.,2002,“TheRiskGameandtheBlameGame,”GovernmentandOpposition,Vol.37,No.1.

Kamateri,E.etal.,2015,“ComparativeAnalysisofToolsandTechnologiesforPolicyMaking,”inJanssen,M.,M.A.Wimmer,&A.Deljoo(eds.),PolicyPracticeandDigitalScience:IntegratingComplexSystems,SocialSimulationandPublicAdministrationinPolicyResearch,Cham:SpringerInternationalPublishingSwitzerland.

Kingdon,J.W.,1995,Agenda,Alternatives,andPublicPolicies,NewYork:HarperCollinsCollegePublishers.

Kleinberg,J.,H.Lakkaraju,J.Leskovec,J.Ludwig,&S.Mullainathan,2017,“HumanDecisionsandMachinePredictions,”TheQuarterlyJournalofEconomics,Vol.133,Iss.1.

Langford,Cameron,2017,“HoustonSchoolsMustFaceTeacherEvaluationLawsuit,”CourthouseNewsService,https://www.courthousenews.com/houston-schools-must-face-teacher-evaluation-lawsuit/,2020年6月16日访问。

Leetaru,K.,2011,“Culturomics2.0:ForecastingLarge-ScaleHumanBehaviorUsingGlobalNewsMediaToneinTimeandSpace,”FirstMonday,Vol.16,No.9.

Mehr,Hila,2017,“ArtificialIntelligenceforCitizenServicesandGovernment,”AshCenterDemocraticGovernanceandInnovation,HarvardKennedySchool,https://ash.harvard.edu/files/ash/files/artificial_intelligence_for_citizen_services.pdf.

Mullainathan,S.&J.Spiess,2017,“MachineLearning:AnAppliedEconometricApproach,”JournalofEconomicPerspectives,Vol.31,No.2.

NagtegaalR.,2021,“TheImpactofUsingAlgorithmsforManagerialDecisionsonPublicEmployees’ProceduralJustice,”GovernmentInformationQuarterly,Vol.38,Iss.1.

Osoba,O.A.&V.W.Welser,2017,AnIntelligenceinOurImage:TheRisksofBiasandErrorsinArtificialIntelligence,CantaMonica:RandCorporation.

Rice,D.R.&ChristopherJ.Zorn,2021,“Corpus-BasedDictionariesforSentimentAnalysisofSpecializedVocabularies,”PoliticalScienceResearchandMethods,Vol.9,Iss.1.

Ross,C.&I.Swetlitzi,2017,“IBMPitcheditsWatsonSupercomputerasaRevolutioninCancerCare.It’sNowhereClose,”https://www.statnews.com/2017/09/05/watson-ibm-cancer/,2020年6月16日访问。

Sabatier,P.A.,1999,“TheNeedforBetterTheories,”inP.A.Sabatier(ed.),TheoriesofthePolicyProcess,Boulder,CO:WestviewPress.

Valle-Cruz,David.,EdgarAlejandroRuvalcaba-Gomez,RodrigoSandoval-Almazan,&J.IgnacioCriado,2019,“AReviewofArtificialIntelligenceinGovernmentanditsPotentialfromaPublicPolicyPerspective,”Proceedingofthe20thAnnualInternationalConferenceonDigitalGovernmentResearch,Dubai,UnitedArabEmirates.

Viechnicki,Peter&WilliamD.Eggers,2017,HowMuchTimeandMoneyCanAISaveGovernment?CognitiveTechnologiesCouldFreeupHundredsofMillionsofPublicSectorWorkerHours,NewYork:DeloitteUniversityPress.

Workman,S.,B.D.Jones,&A.E.Jochim,2009,“InformationProcessingandPolicyDynamics,”PolicyStudiesJournal,Vol.37,No.1.

Zeph,Capo&JanetBass,2017,“FederalSuitSettlement:EndofValue-AddedMeasuresforTeacherTerminationinHouston,”AFT,https://www.aft.org/press-release/federal-suit-settlement-end-value-added-measures-teacher-termination-hous,2020年6月30日访问。

Zouridis,Stavros,MarliesvanEck,&MarkBovens,2020,“AutomatedDiscretion,” inPeterHupe&TonyEvans(eds.), DiscretionandtheQuestforControlledFreedom,Cham:PalgraveMacmillan.

【注释】

①姚春鸽：《大数据时代的大变革》，载《人民邮电报》2012年5月29日，第2版。

②一个典型的例子是2016年美国大选期间“剑桥分析”这一政治人工智能公司，利用5000万脸书（Facebook）用户信息进行人工智能分析与预测，分析这些用户的心理特征和政治偏好，并进而推动定制政治广告和新闻，从而影响用户的投票行为。

③除了剑桥分析公司的事例外，近年出现了一种名为“深度伪造”（deepfake）的人工智能换脸技术可以逼真伪造某些领导人的视频和语音信息，极大提高虚假信息的可信度，使其影响力瞬间被千万倍扩大，获得大量公众关注，进而操纵公众情绪，引发社会混乱从而达到某些特殊目的。

④美国司法部原部长埃里克·霍尔德就警告基于人工智能预测的犯罪概率评分系统可能会误导法庭判决，他说：“尽管该系统的设计出于善意，但是我担心它会破坏个性化和公平正义，加剧在刑事司法系统和社会中已经普遍存在的不公正问题”（Angwinetal.，2016）。

【作者简介】吴进进：深圳大学公共管理系（WuJinjin，DepartmentofpublicManagement,ShenzhenUniversity）符阳：深圳大学公共管理系（FuYang，DepartmentofpublicManagement,ShenzhenUniversity）责任编辑：皮莉莉返回目录

【智能决策论坛系列解读】复杂决策系统中的多智能体学习问题

2020年9月19至20日，由中国科学院自动化研究所主办的首届智能决策论坛在线上成功举办。论坛由中国科学院自动化所所长徐波担任论坛主席，邀请了国内外17位智能决策领域的顶尖专家和科研新秀围绕智能决策相关研究方向和应用进行了精彩的学术报告和线上探讨。其中，伦敦大学学院汪军教授、清华大学交叉信息科学院助理教授张崇洁、上海交通大学电子信息与电气工程学院助理教授温颖、华为伦敦实验室访问研究员杜雅丽和伦敦大学学院博士田政等多位嘉宾的报告均与多智能体学习理论和算法相关，是本次论坛报告和讨论的热点话题之一。

多智能体学习，顾名思义，即由计算机控制的人工智能学习如何在运行着多个智能体的环境中进行智能决策，并通过与其他智能体的合作或竞争达到自己或群体的目标。多智能体学习涉及合作、竞争或是二者混合的环境和任务类型，几乎涵盖人类社会中的各类重要场景，在学术研究、智慧城市、经济发展、商贸博弈和国防军事等方面均具有重要的研究和应用价值。

多智能体学习旨在解决涉及多个智能体之间的协同序贯决策问题，其中每个智能体采取某一策略后带来的环境改变和奖励大小都将受到其他所有智能体联合行为的影响，因此无论是问题的建模还是求解都十分困难，具体表现在以下三方面：

一、复杂决策系统的表示和建模问题

如何对复杂决策系统进行合理表示和建模将直接决定多智能体学习的效果和效率。在深度学习领域，研究人员经常使用深度神经网络来拟合复杂的函数，因此一个很自然的想法便是将智能体策略用神经网络进行建模，并通过深度学习技术指导多智能体学习，这其中的关键就在于如何设计深度神经网络结构。例如多个智能体是否要构建成相同的结构？同构智能体学习效率高、计算量小，但这种方法不够灵活，应用范围小，要求智能体类型相同，遇到种类复杂的对象就可能失效。异构智能体可以表示多种不同类型的智能体，但对算力和算法有着较高要求。另外，多个智能体在学习过程中是以中心化的方式统一进行学习，还是以去中心化的方式各自学习？如何解决算法的可拓展性和贡献分配问题？

在智能决策论坛中，张崇洁提出一种值函数分解的方法，即为每个智能体维护一个价值函数，并利用集中训练分散执行的模式，既解决了可拓展性的问题，又通过神经网络梯度反向传播的方式为每个智能体做了隐式的贡献分配。杜雅丽针对多智能体数量动态变化的可扩展性问题，提出了一种新颖的空间网格化结构来组织多个智能体，每个网格单元对应一个智能体，并采用编码器-解码器网络作为策略网络。这种体系结构的主要特征是：学习所有智能体的空间联合表示，并输出网格方式的动作，每个智能体占用一个网格单元并从网格中采取动作，而空网格将被联合策略掩盖，以达到灵活控制智能体数量的目的。汪军教授提出了一种让多智能体学习隐性沟通的PBL算法，该算法中的每个智能体包含了两个模块：决策模块和信念模块。决策模块负责制定策略并选择动作。由于智能体只能通过动作来传递信息，所以决策模块制定的动作不仅需要配合队友共同完成任务，还需要将队友缺失的关键信息用动作传递出去。而信念模块则负责对队友做出的动作进行推断，估计动作背后队友想要传递的信息。

张崇洁作报告

杜雅丽作报告

汪军作报告

二、多智能体学习的目标评价和设定问题

若想让多个智能体进行有效的学习，就必须要明晰学习的目标，并对智能体的实时策略进行准确地评估，从而确定智能体的策略是否正朝着目标方向逐渐提升，以及是否达到最优。最优解设定和策略评估问题因此成为多智能体学习中必须解决的重要一环,而博弈论则为其提供了可能的解决方法。

使用博弈论指导多智能体进行学习并非一条坦途，最核心的问题之一就是如何确定智能体的学习目标并客观地评价智能体的水平？博弈理论中目前常用的评估方式包括纳什均衡、竞赛积分（ELO）机制和模仿者动态机制等，其中被普遍使用的纳什均衡本质上具有不唯一、不具备动态性且仅适用于二人博弈的缺点；ELO机制不能处理相克关系不传递的博弈，而且也没有动态特性；而模仿者动态机制仅适用于参与者较少的零和博弈情景，均衡点不唯一。

在智能决策论坛中，安波把博弈论在人工智能方面的解决方案总结为两种：一是完全基于博弈的，即把整个问题建模成一个博弈模型，然后求其均衡解，这通常是一个大规模的优化问题，因此需要运用运筹学和优化的技术；二是利用强化学习的方法，当问题不能被很好地建模为一个博弈过程或非凸问题，且难以使用传统优化方法求解时，采用强化学习是合适且必要的。

安波作报告

三、多智能体学习的计算优化和求解问题

在多智能体学习过程中，可以延续单智能体强化学习的思路，使多个智能体在环境中进行探索，彼此合作或是竞争完成某些任务，并获取环境反馈的奖励。一般而言，合作的智能体之间试图通过多人协作来较快地完成任务或是获取更大的奖励，而竞争的智能体之间则通过剥削对手来使得己方奖励最大化。在一个回合或固定训练步数后，根据智能体获得奖励值的大小对智能体的策略进行更新，奖励值越大说明策略越好，那么在遇到同样状态时采取该动作的概率就相应提升，反之亦然。通过长时间训练，智能体的策略不断提升，合作或竞争的意识逐渐增强，直到最终策略收敛。多智能体强化学习整体思路清晰，但实际操作起来却也无法避免复杂性高、计算量大的困扰，需要在对问题的良好表示和建模的基础上，明晰学习目标和策略评估手段，进一步对学习算法进行优化，并采用特定工程技术对问题进行快速求解。

四、总结与展望

面对上述复杂决策系统的三大问题，我们在结合博弈论和强化学习分别进行突破的同时，也要思考全新的多智能体学习与决策途径。一条可行之路是让多智能体决策系统进行自主进化学习：根据群体智能的水平自动选取一个小目标，并根据小目标选择合适的训练对手，然后通过博弈论指导多智能体强化学习进行训练并达到初步目标后，再重新选取下一个小目标。如此循环往复，最终完成群体智能的自主进化，从而实现具有较高水准的复杂智能决策。

利用人工智能进行自动决策，将为我们带来更加智慧的路

至于高级人工智能拥有自我意识后，还会听人类的使唤吗？人类该怎么办？真的很难给出答案。或许我们可以通过某种机制避免这样的事情发生，或者禁止创造拥有自我意识的智能机器。人工智能的最终目的就是为了让人们的生活更美好，代替很多人的体力劳动，让大家有更多的时间去学习、去思考、去探索未来和未知！只有当我们不为生活发愁时，我们才会发展的更好。纵观科学技术的发展史，做出重大贡献的基本上都是位于社会金字塔中上部的那些人。虽然人工智能已经发展了好几十年，但在初期发展的十分缓慢，现阶段我们还处于人工智能发展的初级阶段。不过，人工智能技术现阶段已经开始重塑多个行业的面貌。可以断定，我们现在就已经处于人工智能爆发的元年了，现在每一个人都能享受这项技术带来的巨大改变。人工智能的应用领域有很多。结合城市交通出行大数据，利用人工智能进行自动决策，将为我们带来更加智慧的路，从而降低交通事故的发生概率，缓解拥堵。在科学研究领域，人工智能也有大显身手之处，因为科学研究往往需要进行大量的实验，产生大量的实验数据，如果利用人力进行分析，往往费时费力，这一过程完全可以交给机器。物联网和人工智能结合，智能生活也将走进千家万户。移动互联网的出现，仅仅用了10多年时间，就让我们的生活方式发生了巨大的改变。人工智能肯定会让我们的生活更上一层楼，未来可期。人工智能技术不仅可以改变一部手机、一辆车、一个家庭，还将改变整个社会的产业，促进经济飞速发展。在科学技术这个股力量的推动下，几百年前，人类总共进行了三次大的工业或者说科技革命，而人工智能则将带领我们步入第四次科技革命，从信息时代步入智能时代。而以人工智能为核心驱动力的智能经济也正在成为经济发展的新引擎。人工智能和基因技术、空间技术、纳米技术等都是21世纪最为尖端的技术。正是因为人工智能技术对未来十分重要，所以各大科技公司都希望能够分一杯羹，这一行业也将成为竞争最为激烈的一个行业之一。

人在环外：智能化指挥决策系统发展趋势

未来战场精确制导武器的大量应用，智能化技术在指挥决策中的深度推广，推动“OODA”环路中的观察、判断、决策和行动的运行模式发生深刻变革，以往由人完成的任务逐渐被计算机系统替代，人在环路中承担的任务变得越来越少，计算机系统在环路中承担的任务却越来越多，指挥决策效率变得越来越高，人从环路内走向环路外，已经成为指挥决策系统的发展趋势。

智能化指挥决策系统发展阶段

智能化指挥决策系统，同其他事物的发展一样，也是从低级阶段逐步迈向高级阶段。目前，它已经和正在经历“人机共环”“人在环中”两个发展阶段，“人在环外”的新阶段也已初露端倪。这种发展趋势，不是由人的主观意愿决定的，而是由信息技术发展水平、人机协作的紧密程度等客观条件决定的。

人机共环——智能化指挥决策系统的初级阶段。在计算机系统以单机或小规模局域网方式应用于智能化指挥决策系统时，计算机系统与人虽然共处一个环路，但由于计算机系统自身功能有限，以及人对计算机系统认识和运用能力的不足，致使计算机系统承担的任务主要表现为在决策人员之间传递和交互信息，系统的基本模态是以人为主。

人在环中——智能化指挥决策系统的中级阶段。随着计算机系统网络大规模应用，实现了广域网互联互通互操作，人机交互能力水平大幅提升，人的大部分工作被计算机系统替代（不包括核心指挥决策工作），计算机系统成为人离不开的工具，具备了完成部分指挥决策任务的能力。指挥决策系统中人机任务分工进一步细化，协作更加频繁，人离不开机、机辅助人的程度逐步加深，系统的基本模态表现为人在环中、人机相互协作。

人在环外——智能化指挥决策系统的高级阶段。广域互联网络的高度融合，智能决策技术的快速发展，极大地提升了计算机系统的智能决策筹划能力，扩展了计算机系统决策工作任务完成的范围，增大了人对计算机系统的信任度，从而为形成人授权下的“OODA”环路自动运行奠定基础。此种环路中，决策人员只完成顶层核心决策任务，并对环路指挥决策过程进行监督或指导，系统的基本模态是人在环外、自主运行。

智能化指挥决策系统功能特征

推动智能化指挥决策系统发展，应在态势认知、决策建议、方案评估和灵活反应上寻求突破。

能战场感知更能态势认知。察情是指挥决策的起点，人机混合智能化指挥决策系统首先要能够接入多源异构情报信息并对其进行融合处理，按照指挥系统各机构、部门、席位需求进行精准分发，从而保障指挥系统能够准确感知战场各种情况。在此基础上，更要基于各种信息对战场态势发展进行预判、预报、预警，尤其要加强不完整、有干扰、未发生敌情信息基础上的态势判断与认知，为科学决策和周密计划奠定坚实的基础。

能制定方案更能提出建议。人机混合智能化指挥决策系统首先是智能化参谋系统，必须能在战场态势全面感知和预判认知的基础上，检索和配置存储的各种决心预案，按照指挥员决策需要，生成多套决心方案供决策选择。在此基础上，更要能够分析各个决心方案的优缺点，尤其是结合指挥员的关注点和强调的要点，提出具体决心建议，更好地满足指挥员施计用谋和展现个性风格所需。

能制定计划更能推演过程。智能化系统的最大优势就是基于智能技术的自动计划和基于信息技术的高效计算，特别是在依据决心方案制定计划的过程中，要能够自动组装和匹配计划的各要素内容，快速形成有效实用的作战计划。人机混合智能化指挥决策系统要在此基础上注重发挥人的能动因素，为指挥人员提供更多的计划要素组合方案，使基于同一决心方案的作战目标选择、作战力量区分、作战过程设计等内容能够有所区别并形成多套计划，通过智能推演评估系统形成多案评估结论，供指挥系统灵活选择。

能精确控制更能灵活反应。随着远程精确制导武器系统的使用，各级指挥系统进行行动控制的空间范围和实体规模在扩大，尤其是自动控制技术的发展与运用，将使上级指挥系统越过本级直接指挥下级乃至具体武器平台成为新常态。人机混合智能化指挥控制系统首先要满足精确控制大量异构任务主体及武器平台的需求，准确执行作战计划，精准控制行动协同，同时也要同步评估和反馈行动结果。更重要的是，要根据战场态势变化及时调整计划执行，调控行动节奏，既要保证能够完成既定目标，同时也要在控制作战对象行动过程中，通过改变方向、调整目标或增补新任务等方式集约使用作战资源，提高作战效能，避免兵力和战力的浪费。

智能化指挥决策系统实现路径

“人在环外”智能化指挥决策系统的构建，应坚持在继承信息化指挥决策系统成果的基础上，按照人为主导、系统自主、稳定可靠、运行高效的基本要求，创新人机混合、人机交互、人机互补的实现路径。

以人决策需求为牵引设计信息显示。无论人机共环、人在环中、人在环外，人都需要对系统的运行状态及结果进行监控。因此，需要系统按照人的需要和便于人理解的方式提供信息显示。系统应强化当前指挥决策人员熟悉的图、文、表显示，同时提升依托数据的多媒体、多模态展示形式，以及指挥决策过程的全息、动态显示，提供重要决策环节和要点的信息，合理设定决策风险信息的显示。

以多样化工具为手段设计多模交互。人机交互手段是人机混合、融合的基本条件，系统需要为指挥决策人员提供更多更丰富的交互工具，以完成人机混合指挥决策。信息的输入输出仍是人机交互的基本手段，提供多模式信息输入输出是解决人机交互的基本思路。从信息输入角度讲，在坚持基本的键盘输入基础上，要广泛利用当前模式识别技术，引入语音输入等新输入模式。从信息输出的角度讲，传统的屏幕输出要从单屏迈向多屏互动，显示模式要从平面显示走向立体全息、虚拟现实显示，要广泛应用声光电技术强化显示效果。未来脑机技术发展成熟以后，要积极引入脑机输入输出技术，使指挥决策系统能够将信息直接输入人脑进行意识显示，并直接接受人脑信息，实现人灵机一动、机立即产生反应的效果。

以人随时介入为基准设计干预路径。人机交互除了共同完成指挥决策外，还有一项更重要的功能是保证人能够干预指挥决策的运行走向及效果。未来，人在环外更重要的职能就是监督和干预系统运行。因此，系统必须按照指挥决策需要为指挥决策人员提供介入干预的途径。在战场态势判断环节，系统要为人提供指导意见和补充意见的途径，使系统的判断能够与人保持一致。在决策和制定方案计划环节，系统要为人提供方案局部调整、多案选择的途径，使系统制定的方案计划更符合人的意图。在行动控制与调控环节，系统要为人提供进程控制、节奏调整、随时叫停的途径，使作战进程的控制更符合人的意志。

以降维可运行为底线设计托底功能。作为指挥决策系统，可靠性始终是基本要求。从保证指挥可靠有效性的要求上，系统必须提供在局部或大部受损的情况下降维运行的功能，要允许指挥决策人员逐步从环外、环中进入共环，直到以人为主，甚至形成无机之环回归手工操作。系统应尽量提供受损后托底的输入输出以及信息传送手段，保证作战指挥过程中具备指令下达与情况掌握最基本的能力。