博舍

人工智能模型中的3种偏见以及如何解决 人工智能偏见问题有哪些原因呢怎么解决

人工智能模型中的3种偏见以及如何解决

人工智能模型中的3种偏见以及如何解决

自动化决策工具在组织的应用中正变得越来越普遍。然而,其背后的一些机器学习(ML)模型(从面部识别系统到在线广告)都清楚地表明在种族和性别方面存在偏见。随着机器学习模型的广泛采用,需要专业知识来确保人工智能更加公平。

机器学习模型应该消除偏见,而不是加剧歧视。为了构建公平的人工智能模型,必须首先使用更好的方法来识别产生人工智能偏见的原因,因此必须了解人工智能模型如何学习其输入和输出之间的偏差关系。

研究人员已经确定了人工智能中具有的三种偏见:算法偏见、负面影响、低估。当受保护的特性和用于决策的信息之间存在统计的依赖性时,就会出现算法偏见。负面影响是指用于训练人工智能模型的数据中已经存在的偏差。当没有足够的数据使人工智能模型对人口的某些部分做出可靠的结论时,就会出现低估。

以下深入研究每一个问题:

1.算法偏见

算法上的偏见源于受保护的特性与其他因素之间的相关性。当发生这种情况时,不能仅通过从分析中删除受保护的特性来减少偏差,因为其相关性可能导致基于非保护因素的有偏见的决策。

例如,美国早期的预测性警务算法在进行预测时并不能直接获取种族的数据,这些模型严重依赖于与种族相关的地理数据(如邮政编码)。这样,对性别和种族等人口统计数据“盲目”的模型仍然可以通过与受保护属性统计相关的其他特征对这些信息进行判断。

美国消费者金融保护局致力于确保贷款机构遵守其公平贷款法规,该局发现了一些统计方法将地理和姓氏信息结合起来,对于种族和族裔代理的判断提供了更高的准确率。这个发现驳斥了一种普遍存在的误解,即如果算法不能访问受保护的数据,将自动减少偏差。这种被称为代理歧视的现象,一旦查明了根本原因,就可以缓解这种称为代理歧视的现象。也就是说,可以通过在创建代理功能的模型中定位中间计算,并将其替换为与受保护属性相关性较小的值来纠正违规行为。

与人们的直觉相反,在某些情况下,从模型训练中删除受保护特性的解决方案实际上会伤害到已经处于不利地位的群体。例如,在美国司法系统中,美国惩教机构和假释委员会使用风险因素清单对监禁和释放做出公正的决定。当人类和人工智能模型处理具有诸如性别、年龄、当前指控以及先前成人和青少年犯罪数量等基本信息时,人类和人工智能模型的表现是相当的。

然而,通过给人类和人工智能模型10个额外的与教育和物质使用相关的风险因素,研究人员发现机器学习模型更准确,更不容易产生偏见。这强调了需要了解人工智能模型偏差的根本原因,而不是盲目地采用补救策略。

2.负面影响

人工智能算法的偏见也有可能直接来自其训练数据中存在的类似偏差。例如,受过训练以执行语言翻译任务的机器学习模型倾向于将女性名字与“父母”和“婚礼”等属性相关联,而男性名字与诸如“专业”和“薪酬”之类的单词之间的关联性更强。该模型不太可能会自己建立关联。与其相反,它是在反映这些性别取向的文本素材库上进行训练的。这是产生负面影响的一个例子。

在自然语言处理中,性别偏见是一个令人困扰但经过充分研究的问题:对原因的清晰了解提供了纠正它的途径。在英语这样的名词和形容词倾向于性别的语言中,研究人员发现了强制词嵌入以保持性别中立的方法。而在其他语言具有固有性别词语的情况下,可以通过引入打破性别和中性词之间因果关系的示例来增强语言素材库,以防止出现偏见。

在其他应用领域中,负面影响可能是最难缓解的偏见之一,因为偏见固有地内置于机器学习模型从中学习的数据集中。因此,该模型可以将多年来对某一人群的系统性偏见进行编码。例如,或者根据人们居住的地方拒绝向他们提供贷款,可能会使贷款批准数据集更侧重于白人。数据中的这种偏差会导致人工智能模型的偏见。

尽管现有的缓解偏见策略可能会尝试提高黑人申请者的信用接受率,但这可能会掩盖该模型偏见的真正原因,并使其难以解决根本问题。FICO分数通常用作信贷决策的输入,已经显示出种族歧视。在这种情况下,事后偏差缓解策略的有效性将低于寻找与信用价值也存在因果关系的替代数据源。因此,通过寻找替代数据可以减轻负面影响。

3.低估

正如数据可能存在偏差一样,也可能出现数据不足的情况。如果没有足够的数据,机器学习模型可能无法提供可靠的预测。这是被低估的问题。亚马逊公司最近训练了一种机器学习模型,以在招聘过程中筛选求职者,但与许多其他科技公司一样,亚马逊的劳动力队伍男性比例过高。这种数据失衡使得其人工智能模型在评估男性时更加侧重,亚马逊公司认识到这种模型的推荐人选存在偏差,因此在其招聘渠道中取消了这种模型。

如果寻找更多或更好的数据,亚马逊公司或许能够构建出一种无偏见的招聘工具,但是如果不能正确地理解出现这种偏见的原因,这是不可能实现的。而在低估的情况下,模型的预测确定性可以跨人群的子组进行分析,通过自动增加新实例,可以使基础数据集实现多样化。

衡量模型确定性和稳定性的方法对于了解模型是否准备好对所有人群做出可靠的预测至关重要。在低估的情况下,提供的数据集无法充分表现出数据的细微差别。但是,用于促进公平或事后偏向缓解策略的对抗性训练技术可能不会像将数据集扩展得更全面。

人工智能算法可以编码并保持偏见,这已经不是什么秘密,这可能会带来不良的后果。尽管这描绘了一种严峻的场景,但重要的是要记住,如果处理得当,算法偏差(与人类偏见不同)最终是可以量化和固定的。与盲目减少人工智能偏见不同,准确理解偏见背后的真正原因对部署安全可靠的人工智能至关重要。

尽管这些原因很复杂,但研究人员仍在继续开发更好的方法来衡量特定人群的不同结果,确定导致这些差异的特征,并为特定的偏见来源选择合理的缓解策略。随着越来越多的决策实现自动化,必须从根本上消除人工智能偏见,以创建公平和公正的模型。

人工智能的安全、伦理和隐私问题

人工智能的安全、伦理和隐私问题

一、人工智能的安全问题1.人工智能网络安全问题众所周知,很多行业在应用入工智能这项技术以及相关的知识的时候都是依附于计算机网络来进行的,而计算机网络这个行业是错综复杂的,很多计算机网络的安全问题也是目前我国面临的很严重的问题之一,相应的人工智能的网络安全问题也是还存在问题的,比如机器人在为人类服务的过程中,操作系统可能遭到黑客的控制,机器人的管理权限被黑客拿到,使机器人任由黑客摆布;亦或突然源代码遭受到攻击,人工智能的信息基本通过网络进行传输,在此过程中,信息有可能遇到黑客的篡改和控制,这就会导致机器人产生违背主人命令的行为,会有给主人造成安全问题的可能性。不仅如此,在人工智能的发展过程中,大量的人工智能训练师需要对现有的人类大数据进行分析和统计,如何防止信息的泄漏和保护个人信息的隐私也是人工智能领域需要关注的问题。

2.人工智能应用范围限定的问题对一些发展不成熟、会有引起安全问题的可能性的领域以及技术的应用范围给出一定的限定,这是保障人类与社会和谐发展的一种手段,也是不能或缺的一个步骤。目前,人工智能的发展也是如此的,这也是人工智能目前安全问题所面临的问题之一。目前各行各业都有人工智能的应用,比如无人驾驶、各类机器人等,很多行业都会看到人工智能的存在,小到购物APP中的客服机器人,大到国际比赛中机器人的应用,在许多危险的领域,如核电、爆破等危及人类生命安全的场景,发挥了至关重要的作用。这些领域的应用如果应用的成功那没什么问题,一旦出现问题就会产生很严重的安全性问题。对于人工智能应用的范围,目前并没有给出明确的界定,也没有明确的法律依据,这就需要相关组织和机构,尽快对人工智能的适用场景进行梳理,加快人工智能标准和法律的建设步伐,防止一些不法分子,利用法律漏洞将人工智能运用到非法的范围中,造成全人类不可估量的损失。

3.人工智能本身的安全标准人工智能的产生以及应用的本身目的并不是为了赶超人类或者达到人类的智力水平,它本身存在的价值是服务于人类,可以成为人类生活的更好的一种工具,人类需要对其有着一定的控制的能力。但是近几年来,很多人工智能的存在是为了与人类的智力水平以及人类为标准,忽略了部分人类伦理的问题,甚至涉及到部分人权问题,这就偏离了人工智能本身存在的目的,而这种的偏离会产生一定的安全问题,从而影响人工智能的发展。所以人们应对机器人的道德和行为判断力进行判定,确保其在人类的道德伦理范围中,避免人工智能产物做出危害人类安全的行为。人类必须对人工智能的行为进行严格的监管,也要大力发展人工智能自身的伦理监督机制,使其为人类所用。

二、人工智能的伦理问题1.人工智能算法的正义问题依托于深度学习、算法等技术,从个性化推荐到信用评估、雇佣评估、企业管理再到自动驾驶、犯罪评估、治安巡逻,越来越多的决策工作正在被人工智能所取代,越来越多的人类决策主要依托于人工智能的决策。由此产生的一个主要问题是公平正义如何保障?人工智能的正义问题可以解构为两个方面:第一,如何确保算法决策不会出现歧视、不公正等问题。这主要涉及算法模型和所使用的数据。第二,当个人被牵扯到此类决策中,如何向其提供申诉机制并向算法和人工智能问责,从而实现对个人的救济,这涉及透明性、可责性等问题。在人工智能的大背景下,算法歧视已经是一个不容忽视的问题,正是由于自动化决策系统日益被广泛应用在诸如教育、就业、信用、贷款、保险、广告、医疗、治安、刑事司法程序等诸多领域。从语音助手的种族歧视、性别歧视问题,到美国犯罪评估软件对黑人的歧视,人工智能系统决策的不公正性问题已经蔓延到了很多领域,而且由于其“黑箱”性质、不透明性等问题,难以对当事人进行有效救济。

2.人工智能的透明性和可解释性问题人工智能系统进入人类社会,必然需要遵守人类社会的法律、道德等规范和价值,做出合法、合道德的行为。或者说,被设计、被研发出来的人工智能系统需要成为道德机器。在实践层面,人工智能系统做出的行为需要和人类社会的各种规范和价值保持一致,即价值一致性或者说价值相符性。由于人工智能系统是研发人员的主观设计,这一问题最终归结到人工智能设计和研发中的伦理问题,即一方面需要以一种有效的技术上可行的方式将各种规范和价值代码化,植入人工智能系统,使系统在运行时能够做出合伦理的行为;另一方A面需要避免研发人员在人工智能系统研发过程中,将其主观的偏见、好恶、歧视等带入人工智能系统。算法歧视与算法本身的构建和其基于的数据样本数量及样本性质密不可分。算法歧视问题其实取决于底层数据的积累,数据积累越多算法计算就越准确,对某一人群的算法描述就越精准。同时,随着算法复杂性的增加和机器学习的普及导致算法黑箱问题越来越突出。美国计算机协会公共政策委员会在《算法透明性和可问责性声明》中提出七项基本原则,第一项基本原则即为解释,其含义是鼓励使用算法决策系统对算法过程和特定决策提供解释,并认为促进算法的可解释性和透明性在公共政策中尤为重要。未来人工智能系统将会更加紧密地融入社会生活的方方面面,如何避免诸如性别歧视、种族歧视、弱势群体歧视等问题,确保人工智能合伦理行为的实现,这需要在当前注重数学和技术等基本算法研究之外,更多地思考伦理算法的现实必要性和可行性。

三、人工智能的隐私问题1.个人隐私的过度收集互联网的发展以及人工智能技术的应用在很大程度上降低了大数据在分析应用方面的成本,摄像头已经遍布我们生活的大部分角落,走在街上我们的一行一动,都随时随地在电子监控的掌控之中;计算机被广泛利用来准确地记录人们的浏览记录:移动通信设备随时跟踪人们的通话记录,聊天记录等。在人工智能时代,在收集个人信息面前,人们面对无处可逃的命运。在人工智能的应用中,监控发生了根本性的变化,融合了各种类型的监控手段,监控的力度也变的越来越强大。以CCTV视频监控为例,它不再是单一的视频监控或图像记录和存储,其与智能识别和动态识别相结合,大量的视频监控信息构成了大数据,在此基础上通过其他技术的智能分析就能进行身份的识别,或是与个人的消费、信用等的情况进行关联,构成一个人完整的数字化的人格。人工智能应用中的数据米源于许多方面,既包括政府部门也有工商业企业所收集的个人数据资料,还包含着用户个人在智能应用软件中输入和提供的数据资料,比如在可穿戴设备中产生的大量个人数据资料,以及智能手机使用所产生的大量数据资料都可能成为人工智能应用中被监控的部分,它在不改变原有形态的前提下对个人的信息进行关联,将碎片化的数据进行整合,构成对用户自身完整的行为勾勒和心理描绘,用户很难在此情况下保护自己的个人隐私。视频监控还可能借助无线网络通信,使隐私遭遇同步直播成为现实,一些非法的同步录像行为,具有侵犯隐私利益的可能性。此类人工智能技术的广泛应用,让我们隐私无处安放,不仅超出了公众所能容忍的限度,也是对整个社会隐私保护发起的挑战。

2.个人隐私的非法泄露在人工智能不断发展,应用领域不断拓展,人工智能技术在各行各业中都发挥着越来越重要的作用,渗透在各大领域之中,带动着产业的发展,同时我们也必须承认该项技术的发展和应用无法避免的隐患。很多情况下,我们在不自知或不能自知的状态下向智能应用的运营商或者服务提供商提供我们的数据信息,每个人的数据都可能被标记,被犯罪分子窃取并转卖。以“Facebook”数据泄露为例,2018年3月17日,美国《纽约时报》曝光Facebook造成5000多万的用户隐私信息数据被名为“剑桥分析(CambridgeAnalytica)”的一家公司泄露,这些泄露的数据中包含用户的手机号码和姓名、身份信息、教育背景、征信情况等,被用来定向投放广告。“而在此次事件中,一方面是由于使用智能应用的普通用户对自身隐私数据缺乏危机意识和安全保护的措施,另一方面Facebook应用中规定只需要用户的单独授权就能收集到关联用户的相关信息,其将隐私设置为默认公开的选项给第三方抓取数据提供了可乘之机。同样Facebook之所以受到谴责的一个重要原因就是未能保护好用户的隐私数据,欠缺对第三方获取数据目的的必要性审查,对第三方有效使用数据缺乏必要的监控,使个人数据被利益方所滥用,欠缺网络安全事件的信息公开和紧急处理的经验,不仅会侵害网络用户个人的合法权利,也会对社会的发展进步产生消极的影响。Facebook在对数据使用和流转中,并未对个用户数据提起重视、履行责任。在向第三方提供数据共享的便利同时并没有充分考虑到用户隐私保护的重要性和必要性,以及没有采取必要的预防策略,极易对平台数据造成滥用的风险。不难看出,从分析用户的隐私数据来定向投放广告追求商业价值和经济利益,到一再发生的泄密事件使得用户隐私数据信息泄露变得更加“有利可图”。一方面,人工智能应用由于在技术上占有优势,在获得、利用、窃取用户的隐私数据时有技术和数据库的支撑,可以轻松实现自动化、大批量的信息传输,并在后台将这些数据信息进行相应的整合和分析;另一方面,后台窃取隐私数据时,我们普通的用户根本无法感知到,在签订隐私条款时很难对冗长的条文进行仔细的阅读,往往难以发现智能应用中隐藏着的深层动机。在此次数据泄露事件中,该平台本身并没有将用户的数据直接泄露出去,而是第三方机构滥用了这些数据,这种平台授权、第三方滥用数据的行为更加快了隐私泄露的进程。

3.个人隐私的非法交易在人工智能时代,个人信息交易已形成完整的产业链,在这个空间中,一个人的重要隐私信息几乎全部暴露在外,包括身份证号,家庭住址,车牌号,手机号码和住宿记录,所有这些的信息都成为待出售的对象。在人工智能技术广泛应用的同时,人们常用的智能手机、电脑以及社交媒体平台都在无时无刻的记录着我们的生活轨迹,各种垃圾广告和邮件可以实现精准的推送,推销电话、诈骗短信等成为经常光顾的对象,尽管我们没有购买理财产品,没有购房需求,没有保险服务等,也没有向这些公司提供过自己的隐私数据信息,但无法避免而且能经常接到理财公司、房地产商、保险公司等的推销电话。探究这些公司对用户偏好和兴趣精准了解的缘由,那便是人工智能应用中个人隐私的非法交易行为,我们保留在网站或企业中的个人信息,除了由该企业本身使用外,这些企业还经常与其他的个人和企业共同分享、非法交易,而忽略了公民的个人隐私安全。目前,人们的个人数据,如电话号码,银行卡信息,购车记录,收入状况,网站注册信息等,已成为私人非法交易的严重灾区,这些个人信息被不法分子通过非法交易获得并通过循环使用来获利。现阶段,这类专门进行个人信息买卖的公司在国内不计其数,大大小小的分布在各种隐蔽的角落,甚至有一些正规的大型企业也免不了买卖个人信息的行为。当今社会,公民的很多日常行为都不得不提供自己的私人信息,如应聘工作、参加考试、购买保险、购买车票、寻医看病等等。这些信息提供给企业商家后,他们就有义务对用户的信息进行保密,而目前对用户信息保密的相关法律规定还比较欠缺,因此往往寄希望于企业商家通过自律行为来保护用户的隐私。但是目前的现状是大多数企业的自身素质不高,单纯将对隐私保护寄希望于商家企业的自律是不现实的,这些数据往往会被企业商家非法买卖,甚至将这些非法买卖的个人信息用于诈骗、传销。

人工智能模型中的3种偏见以及如何解决

自动化决策工具在组织的应用中正变得越来越普遍。然而,其背后的一些机器学习(ML)模型(从面部识别系统到在线广告)都清楚地表明在种族和性别方面存在偏见。随着机器学习模型的广泛采用,需要专业知识来确保人工智能更加公平。

[[385243]]

机器学习模型应该消除偏见,而不是加剧歧视。为了构建公平的人工智能模型,必须首先使用更好的方法来识别产生人工智能偏见的原因,因此必须了解人工智能模型如何学习其输入和输出之间的偏差关系。

[[385244]]

研究人员已经确定了人工智能中具有的三种偏见:算法偏见、负面影响、低估。当受保护的特性和用于决策的信息之间存在统计的依赖性时,就会出现算法偏见。负面影响是指用于训练人工智能模型的数据中已经存在的偏差。当没有足够的数据使人工智能模型对人口的某些部分做出可靠的结论时,就会出现低估。

以下深入研究每一个问题:

1.算法偏见

算法上的偏见源于受保护的特性与其他因素之间的相关性。当发生这种情况时,不能仅通过从分析中删除受保护的特性来减少偏差,因为其相关性可能导致基于非保护因素的有偏见的决策。

例如,美国早期的预测性警务算法在进行预测时并不能直接获取种族的数据,这些模型严重依赖于与种族相关的地理数据(如邮政编码)。这样,对性别和种族等人口统计数据“盲目”的模型仍然可以通过与受保护属性统计相关的其他特征对这些信息进行判断。

美国消费者金融保护局致力于确保贷款机构遵守其公平贷款法规,该局发现了一些统计方法将地理和姓氏信息结合起来,对于种族和族裔代理的判断提供了更高的准确率。这个发现驳斥了一种普遍存在的误解,即如果算法不能访问受保护的数据,将自动减少偏差。这种被称为代理歧视的现象,一旦查明了根本原因,就可以缓解这种称为代理歧视的现象。也就是说,可以通过在创建代理功能的模型中定位中间计算,并将其替换为与受保护属性相关性较小的值来纠正违规行为。

与人们的直觉相反,在某些情况下,从模型训练中删除受保护特性的解决方案实际上会伤害到已经处于不利地位的群体。例如,在美国司法系统中,美国惩教机构和假释委员会使用风险因素清单对监禁和释放做出公正的决定。当人类和人工智能模型处理具有诸如性别、年龄、当前指控以及先前成人和青少年犯罪数量等基本信息时,人类和人工智能模型的表现是相当的。

然而,通过给人类和人工智能模型10个额外的与教育和物质使用相关的风险因素,研究人员发现机器学习模型更准确,更不容易产生偏见。这强调了需要了解人工智能模型偏差的根本原因,而不是盲目地采用补救策略。

2.负面影响

人工智能算法的偏见也有可能直接来自其训练数据中存在的类似偏差。例如,受过训练以执行语言翻译任务的机器学习模型倾向于将女性名字与“父母”和“婚礼”等属性相关联,而男性名字与诸如“专业”和“薪酬”之类的单词之间的关联性更强。该模型不太可能会自己建立关联。与其相反,它是在反映这些性别取向的文本素材库上进行训练的。这是产生负面影响的一个例子。

在自然语言处理中,性别偏见是一个令人困扰但经过充分研究的问题:对原因的清晰了解提供了纠正它的途径。在英语这样的名词和形容词倾向于性别的语言中,研究人员发现了强制词嵌入以保持性别中立的方法。而在其他语言具有固有性别词语的情况下,可以通过引入打破性别和中性词之间因果关系的示例来增强语言素材库,以防止出现偏见。

在其他应用领域中,负面影响可能是最难缓解的偏见之一,因为偏见固有地内置于机器学习模型从中学习的数据集中。因此,该模型可以将多年来对某一人群的系统性偏见进行编码。例如,或者根据人们居住的地方拒绝向他们提供贷款,可能会使贷款批准数据集更侧重于白人。数据中的这种偏差会导致人工智能模型的偏见。

尽管现有的缓解偏见策略可能会尝试提高黑人申请者的信用接受率,但这可能会掩盖该模型偏见的真正原因,并使其难以解决根本问题。FICO分数通常用作信贷决策的输入,已经显示出种族歧视。在这种情况下,事后偏差缓解策略的有效性将低于寻找与信用价值也存在因果关系的替代数据源。因此,通过寻找替代数据可以减轻负面影响。

3.低估

正如数据可能存在偏差一样,也可能出现数据不足的情况。如果没有足够的数据,机器学习模型可能无法提供可靠的预测。这是被低估的问题。亚马逊公司最近训练了一种机器学习模型,以在招聘过程中筛选求职者,但与许多其他科技公司一样,亚马逊的劳动力队伍男性比例过高。这种数据失衡使得其人工智能模型在评估男性时更加侧重,亚马逊公司认识到这种模型的推荐人选存在偏差,因此在其招聘渠道中取消了这种模型。

如果寻找更多或更好的数据,亚马逊公司或许能够构建出一种无偏见的招聘工具,但是如果不能正确地理解出现这种偏见的原因,这是不可能实现的。而在低估的情况下,模型的预测确定性可以跨人群的子组进行分析,通过自动增加新实例,可以使基础数据集实现多样化。

衡量模型确定性和稳定性的方法对于了解模型是否准备好对所有人群做出可靠的预测至关重要。在低估的情况下,提供的数据集无法充分表现出数据的细微差别。但是,用于促进公平或事后偏向缓解策略的对抗性训练技术可能不会像将数据集扩展得更全面。

人工智能算法可以编码并保持偏见,这已经不是什么秘密,这可能会带来不良的后果。尽管这描绘了一种严峻的场景,但重要的是要记住,如果处理得当,算法偏差(与人类偏见不同)最终是可以量化和固定的。与盲目减少人工智能偏见不同,准确理解偏见背后的真正原因对部署安全可靠的人工智能至关重要。

尽管这些原因很复杂,但研究人员仍在继续开发更好的方法来衡量特定人群的不同结果,确定导致这些差异的特征,并为特定的偏见来源选择合理的缓解策略。随着越来越多的决策实现自动化,必须从根本上消除人工智能偏见,以创建公平和公正的模型。

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇