视频|辽宁:人工智能技术首次用于高考 检测作弊行为
原标题:视频|辽宁:人工智能技术首次用于高考检测作弊行为
视频|辽宁:人工智能技术首次用于高考检测作弊行为2020年全国高考大幕今天(7月7日)开启。在辽宁,人工智能(AI)技术首次应用到考试行为分析中,进行考试疑似违规行为检测。辽宁省首次引进的人工智能系统,在考后对所有考场的视频文件进行分析判断,检测出考生的疑似违规行为,考务工作人员再对系统检测出来的疑似违规行为进一步甄别判断,并依据相关规定做出处理。根据考试的安排,考场疑似违规行为的检测工作将在第一科语文考试结束后立即启动,回传的视频进入人工智能系统后,系统将通过分析每名考生的动态特征和静态特征,综合判断其是否存在违规嫌疑。为了提高检测效率,考务中心准备了近百台视频分析一体机,每台机器每小时可以同时处理多个视频文件。记者从辽宁省招考办了解到,虽然这项人工智能技术是首次应用在高考当中,但前期已经经过了反复的试点试验,再配合人工复检,可以极大提升对考试违规行为的检测效率和准确率,为考生营造公平诚信的考场环境。(看看新闻Knews记者:孟雷编辑:施荔)版权声明:本文系看看新闻Knews独家稿件,未经授权,不得转载。谣言泛滥,人工智能如何检测网络虚假信息
网络上的信息来源众多,鱼龙混杂,真假难辨,有为故意造成伤害而创建和共享的虚假信息,还有在没有操纵或恶意意图的情况下创建或传播的误导性信息,因此分辨信息的真实度越来越困难。
一.谣言比真相传播得更快
随着移动互联网的普及和新媒体的发展,事实真相不再由权威决定,黑客可以使用机器创建多个社交媒体账户并使用这些账户传播虚假信息,社会团体和组织可以投放类似新闻的广告,公众不断接触虚假的信息会广泛降低对政府和媒体的信任。世界上最大的社交媒体曾因传播虚假新闻而受到抨击,如在印度上次竞选期间,英国科技公司Logically在超过100万篇的文章中发现虚假新闻有50,000个。我们迫切需要一种在公共、政治和经济讨论中辨别信息真假的方法[1],而人工智能将帮助我们做到这一点[2]。
二.人工智能致力于打击网络虚假信息的传播
面对数据规模大、传播速度快的互联网信息,我们亟需通过人工智能等新兴技术监控和筛选网络上的错误和虚假信息,营造良好的网络生态[3]。人工智能在图像分类和自然语言处理中表现良好[4],广泛应用于医疗保健、自动驾驶汽车、电子商务等生活的方方面面。现如今,人工智能正在努力打击互联网和社交平台上虚假信息的传播[5-6]。针对网络信息,研究人员使用机器算法对信息源进行检测[7],开发用于检测虚假信息的可靠算法[8-9],严格将其与真实信息区分开来。
Logically开发了一种结合人工智能和人类智能的解决方案,以验证新闻、社会讨论和网络图像的真实性。用户可以从应用商店下载免费程序,通过将目标检测内容上传至应用程序来验证内容的真实性。该公司还有一个Chrome浏览器扩展程序,可在160,000多个社交平台和新闻网站上运行,以对新闻报道进行事实性核查。该公司首先在英国和印度部署,然后在2020年选举周期之前扩展到美国,为消费者和政府机构进行事实核查。另一个致力于消除网络错误信息的组织是FullFact,他们组成了一个事实核查团队,开发新技术以提高事实核查精度和效率,还可以进行离线核查。人工智能公司AdVerif.ai保护用户免受诈骗信息、垃圾邮件和虚假新闻的侵害,该公司的FakeRank算法可帮助广告商、出版商遵守网络广告管理政策,从而保护用户,确保品牌声誉。Facebook与独立的事实核查组织Snopes、Politifact、ABCNews和FactCheck.org合作,依靠人工智能工具开发新产品来识别和限制虚假新闻的传播。
机器擅长快速分析大规模数据[10],随着大规模并行计算算法的提出、图形处理器的普及和海量数据的支持,计算机已经可以实现端到端的大规模神经网络训练,打击虚假信息的人工智能算法日新月异[11]。研究人员使用自然语言处理来理解和分析文本,AI模型根据对来自100,000多个来源的类似内容比较,将内容来源的可信度标记为低、中、高和文章可靠或不可靠。其算法不仅可以检查文本内容,还检查元数据和图像。利用深度学习算法构建的事实核查工具可以收集和监控数据,并对其进行识别和索赔标记[12]。DarwinAI和加拿大滑铁卢大学的研究人员表示,深度学习可以自动执行虚假信息检测中的某些步骤。他们将网络信息检查分成各种子任务,包括信息立场检测,其中系统被赋予对新闻报道的主张以及同一主题的其他报道,以确定这些其他报道是否支持或反驳原始文章中的主张。
现有的算法在验证信息真实性方面还不够精确,可能将网络上的一些半开玩笑的交流标记为错误信息。虽然人工智能能够以人类无法实现的规模分析每天生成的大量信息,但人类还是需要在最后参与事实核查过程以确保可信度。
三.人工智能算法与法律规制
一般的机器学习模型,以及表现优异的深度神经网络都是从大量数据中去“学习”。利用人工智能算法对网络信息进行分类,自然会存在算法歧视等风险,而制造出不会因数据造成任何偏差的AI模型也是不切实际的。这就要求研究人员和从业人员在设计和利用机器算法时,要尽可能地避免可能存在的盲区和风险。
我国电子商务法第十八条要求平台在提供个性化推荐的同时,向用户提供未利用个人数据产生的自然结果。该规定首次尝试将算法由平台内部设计的技术问题转变为法律的调整对象,并提出了电子商务平台算法事前监管的初步思路,是对数字经济时代下的平台监管问题做出的积极回应。它认可了网络平台利用机器学习算法对特定个体进行数据画像和精准推送的合法性,但要求个性化推荐算法不能作为唯一的检索方法提供给消费者。这就避免了网民在接触互联网信息时只接触到某一类虚假信息的风险。
然而,电子商务法对于人工智能算法的规制具有局限性,法律未明确算法学习和决策过程中的监管方式,缺乏损害结果的问责和补救措施。无论是采用对人工智能算法分析决策过程的监管,还是对其外部行为和结果的问责,都需要尽可能多地理解算法的内部设计和形成逻辑。目前使用的人工智能算法已经超出了人类对数据的分析能力和对结果的预判能力,其训练过程是不可控的黑箱操作,法律无法对人工智能公司的运营者及算法研究人员问责。
四.揭露并减轻算法偏见
(一)算法模型方面
人工智能算法对网络信息进行观点提取[13]、情绪分析和智能识谣,能够帮助审核人员提取新闻主要观点,识别文章情绪甚至智能分析文章的可信度,这大大提高了审核的效率,降低了虚假信息的传播。但是从技术的角度出发,研究人员很难确切地说明算法是如何进行决策的,模型的预期效果和准确程度无法保证[14]。通过大规模数据进行训练时无法保证训练数据的没有歧视。当算法基于有偏见的数据进行训练时,算法决策可能会出现偏见。
人工智能中的算法偏见是一个普遍存在的问题,为了保障使用人工智能消除网络虚假信息的准确性,我们必须保证训练模型的数据集无偏差。在基本层面上,通过比较和验证不同训练数据样本的代表性来减少和防止算法偏差。为了最大限度地减少偏差,应该通过数据统计来探索和监控异常值。科技公司的运营者和人工智能算法开发者必须了解如何减少人工智能中的偏见,并主动利用他们的训练数据来减轻甚至消除算法偏见。
一,定义和缩小正在解决的问题。试图解决太多的场景通常需要大量标签,这会导致标签难以管理和把控,狭义地定义问题将帮助运营及研发人员确保模型的性能。二,允许存在不同意见的结构化数据。同一类型数据通常有多个不同的标签定义意见,研究人员需要收集这些意见并进行整理和分类,客观地对其进行合法的解释。三,了解训练数据。学术数据集和商业数据集都可能有不同的类和标签,这些分类及标签会导致算法存在偏差,我们需要检查数据是否代表了用户多样性,数据集是否涵盖了所有潜在用例。四,聚集不同的算法团队以提出多元化的问题。来自不同种族、性别、年龄、经验和文化的不同背景的人会带来不同的经验和想法,并以不同的方式跟模型互动,这可以使模型在真正投入生产生活前发现问题。五,面向最终用户。最终的用户不会像研究团队那样简单,他们来自不同的背景拥有不同的经历。我们必须通过学习预测不同的偏差,分析模型可能会出现的决策问题,避免算法偏见。六,进行多样性注释。人工注释人员的分布越广泛,算法最后的观点就越多样化,这有助于减少初始发布与继续训练模型时出现偏差。来自全球的注释者群体不仅提供不同的观点和资源,还可以支持各种语言、方言等特定地理区域的内容。七,收集反馈意见进行测试和部署。人工智能模型在整个生命周期都是不断变化的,发放讨论和获取反馈可以确保模型保持最佳的性能水平。八,利用反馈意见改进模型。我们不仅需要客户反馈,还需要独立人员的审核更改,注意可能遗漏的边缘情况和偏见实例,确保模型利用反馈不断改进提高性能,模型版本不断迭代以提高准确性。
(二)社会伦理方面
随着算法广泛地嵌入人们的日常生活,对其可靠性要求越来越高,衡量标准既体现在算法技术的进步,也反映在算法在道德上的可接受性。这种价值导向使研究者的关注点主要聚焦于以下两类算法:一是人类很难预测其行为后果的算法;二是造成的事实背后的决策逻辑难以解释的算法。算法应用后果的不确定性来自于算法本体的不确定性——算法本身内在地具有不能被规避的不确定性。更为重要的是学习能力赋予算法某种程度的自主权,这种自主性在某种程度上必然使算法输出结果难以预测与解释。同时,由于人类与机器学习算法之间并不存在天然的、“由此及彼”的理解能力,所以人类在预测与解释机器学习算法时天然地处于劣势,进而将其延伸到社会生活领域,无形地增加了伦理风险。
“信息茧房”概念的提出,其理论依据就是公众个体的信息选择以及据此进行的信息推荐和“信息定制”,在主客观两个方面造成了用户自身的信息封闭。对个人而言,“信息茧房”虽然迎合了用户的需求,但是,信息传播技术加强了对个人的控制,它将用户的注意力与时间局限于虚拟空间,使其沉溺于个人趣味和信息选择,导致个人的自我认知偏差和非理性的膨胀,以至于容易形成偏激与极端的观点、言论或行为。个人主义的崛起导致社会的碎片化。对社会而言,“信息茧房”在满足个人信息需求的同时,也限制了公众的交往理性,甚至容易制造群体极化现象。公民虚高的自我认同度降低了其对于不同观点的包容度,也在一定程度上堵塞了社会信息流通,不利于社会和谐和稳定。”[15]信息本身没有价值观,但是对信息的分配体现了分配者的价值观,而分配的方式是可以人工介入的,这种介入既不是简化处理标签,也不是一切以点击为目标,而应该是一套完整全新的系统化操作。可以建立多指标推荐系统。目前推荐系统的主要推送指标包括用户的社交关系、基本信息及浏览记录,可以考虑在推荐系统的算法模型中增加用户满意度、内容影响力、专业品质、时效性等指标,向用户呈现经过重新加权的复杂结果,推送的结果可能帮助用户发掘更多有价值的信息,破除“信息茧房”。
同时加强对算法运行主体的价值引导。现代社会是一个强调个人主义、理性主义和人道主义的社会,而人工智能算法却在不断消解着人的主体性,动摇人在世界中的主体地位。一方面,用好算法,加大对内容的过滤。就是在信息采集、生产等环节,更多借助算法进行人机协作的高效智慧生产,使更多体现主流价值的优质信息产品注入内容池,促进算法时代传播生态的优质化。一方面,管好算法,注入主流价值导向。算法是人设计,强化“人”在传播中的主体地位,通过“人机结合”的方式使算法自动对体现主流价值的内容推荐分发。
可以健全法律监管。智能算法是人类智慧的结晶,在追求其技术可能性与商业前景之前,治理与规范应当先行。人工智能算法的法律规制应当强调元规制治理,突出数据控制者的自我控制义务;加强政府、平台和社会三方的合作治理,通过第三方参与实现对算法的协同治理;完善算法责任分担机制,建立算法安全风险的保险制度等[16]。
推进国家治理体系和治理能力现代化,需要通过监管部门的专业审查机制引导算法从业人员对训练数据和代码进行管控,实现人工智能算法在一定程度上的透明和可解释性。相信在未来几年,我们的研究人员会找到可信赖的方法来阻止虚假信息的传播,保护信息真实性,维护社会稳定。
特约作者:
孙骞(西北大学网络和数据中心教授)
姚军(西安科技大学信息网络中心副教授)
杨子曼闫博
参考文献
[1]张志勇,荆军昌,李斐,赵长伟.人工智能视角下的在线社交网络虚假信息检测、传播与控制研究综述[J].计算机学报,2021,44(11):2261-2282.
[2]张蕾,崔勇,刘静,江勇,吴建平.机器学习在网络空间安全研究中的应用[J].计算机学报,2018(9):1943-1975.
[3]刘雅辉,靳小龙,沈华伟,鲍鹏,程学旗.社交媒体中的谣言识别研究综述.计算机学报,2018,41(7):1536-1558.
[4]GargS,KaurK,KumarN.Hybriddeeplearning-basedanomalydetectionschemeforsuspiciousflowdetectioninSDN:asocialmultimediaperspective.IEEETransactionsonMultimedia,2019,21(3):566-578.
[5]杨静,周雪妍,林泽鸿,张健沛,印桂生.基于溯源的虚假信息传播控制方法.哈尔滨工程大学学报,2016,37(12):1691-1697.
[6]王剑,王玉翠,黄梦杰.社交网络中的虚假信息:定义、检测及控制[J].计算机科学,2021,48(08):263-277.
[7]陈燕方,李志宇,梁循,齐金山.在线社会网络谣言检测综述.计算机学报,2018,41(7):1648-1677
[8]孟杰,王莉,杨延杰,廉飚.基于多模态深度融合的虚假信息检测[J/OL].计算机应用:1-7[2021-12-02].http://kns.cnki.net/kcms/detail/51.1307.TP.20210806.1233.006.html.
[9]李亦轩,刘克剑,杨潇帅,李伟豪,冯媛媛.基于情感分析的虚假信息识别模型[J].西华大学学报(自然科学版),2021,40(05):53-59.
[10]VosoughiS,RoyD,AralS.Thespreadoftrueandfalsenewsonline.Science,2018,359(6380):1146-1151
[11]BondielliA,MarcelloniF.Asurveyonfakenewsandrumourdetectiontechniques.InformationSciences,2019,497:38-55
[12]ZhouX,ZafaraniR,ShuK,etal.Fakenews:fundamentaltheories,detectionstrategiesandchallenges//Proceedingsofthe12thACMInternationalConferenceonWebSearchandDataMining.Victoria,Australia,2019:32-39
[13]周星瀚,刘宇,邱秀连.基于深度学习和CRF的新闻文章的观点提取[J].电子设计工程,2020,28(03):18-22.DOI:10.14022/j.issn1674-6236.2020.03.005.
[14]刘总真,张潇丹,郭涛,葛敬国,周熙,王宇航,陈家玓,吕红蕾,林俊宇.新闻推荐算法可信评价研究[J].信息安全学报,2021,6(05):156-168.DOI:10.19363/J.cnki.cn10-1380/tn.2021.09.12.
[15]贾瑞.新媒体时代“信息茧房”现象的思考[J].新闻研究导刊,2016,7(07):214-215.
[16]郑智航.人工智能算法的伦理危机与法律规制[J].社会科学文摘,2021(04):74-76.
特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。