博舍

人机智能交互如何改变战争面貌 智能交互技术

人机智能交互如何改变战争面貌

人机交互未来新趋势,脑电波手势控制机器人。来源:环球网

未来信息化战场具有极大的不确定性与未知性,情报信息堆积如山、作战空间复杂多样、敌我态势瞬息万变,能否取得战争的胜利,将在很大程度上取决于所获情报信息的准确性、充分性、时效性和可用性,也就是能否建立信息优势,并由此获取全面的指挥决策优势。针对信息化战场军事指挥决策的特征,如何研究和发展军事指挥决策的人机智能交互技术,以提升指挥决策的能力与效率,成为各国争相研究的焦点问题。

人机智能交互的本质与现状

人机智能交互技术是指通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术。人机智能交互技术包括机器通过输出或显示设备,给人提供大量有关信息及提示、请示等,以及人通过输入设备给机器输入有关信息,回答问题及提示、请示等相关技术。它能够通过电极将神经信号与电子信号互相联系,达到人脑与电脑互相沟通。可以预见,随着这种技术的不断发展,电脑在未来甚至可能成为一种媒介,实现人脑之间的交流,也即所谓的心灵感应。

纵观国内外相关技术的研究现状,自然高效的人机交互技术已成为各国的研究焦点,其中部分新型交互手段更是已经逐渐进入军事指挥领域,发挥出显著作用。目前指挥决策环境中的人机对话,大部分内容仍是与地图紧密相关的图形作业,现在兴起的自然手势交互,正是适应这种作业人员与指挥决策环境,自然和谐对话的一种新交互技术。自然手势交互的核心技术包括手势分割、手势分析和手势识别,这种技术能够通过数学算法识别人类手势,从而使计算机理解人类行为,进而做出相应的反应,实现人机交互。除了自然手势交互外,人机交互技术还包括基于传统的硬件设备的交互技术、基于语音识别的交互技术、基于触控的交互技术、基于眼动追踪的交互技术等多种形式的交互技术,多种多样的人机交互技术,未来都有可能在智能化战争中发挥越发重要的作用。

人机智能交互系统能提升作战效率

智能化战场上,针对陆、海、空、天、电、磁、网等多维空间的各类战场监视手段,比如:无线传感器网络、物联网设备、高速计算机等都将产生海量信息。因此,智能化战争时代,战场信息将呈现爆发式增长趋势。而战场信息量的增大,将导致智能化战争对信息的依赖度不断升高。

目前的人机智能交互系统中,海量的战场态势信息,缺乏高效的表达手段,信息之间的内在联系缺乏深层次的挖掘,系统无法根据指挥员的实时需求智能分发所需信息。指挥员对于战场态势分析、筛选、计算、判断造成的认知负担较重,制约其主观能动性发挥,导致指挥决策效率较低。此外,有学者曾提出“人机智能交互还依赖于以‘指点’和‘按键’为主的串行、精确式、单通道的操控方式,这种交互方式不仅不够自然,而且交互通道利用不平衡,易导致生理疲劳和精神压力,影响作战的效率和可靠性”。

人工智能时代催生了一系列新的交互方式,语音交互是目前较为成熟的一种交互方式。随着机器视觉和传感技术的发展,人机智能交互系统能够通过面部表情、视线、手势等特征信息,更智能地判断用户的意图和需求,从而适时准确地为用户提供服务。此外,人机智能交互系统能够基于生理信号实时监测人的生理和心理状态,在指挥员专注度低或者处于疲劳状态时及时进行提醒,从而避免发生安全隐患。虚拟现实及可视化技术的发展,提供了全新的沉浸式信息显示方式,战场态势信息通过智能系统进行筛选、深度挖掘、算法分析之后,通过沉浸式的方式呈现给指挥员,甚至能够将远方战场情境通过“全息投影”的方式平行地复制到指挥员面前,从而使指挥员更易于感知和理解战场态势。因此,未来的人机智能交互系统,应当具备沉浸式的显示模式,能够实时监测人的生理及心理状态,支持融合语音、面部表情、视线、手势等多种交互方式,根据场景自动切换适宜的交互通道组合,最大限度地为指挥员提升交互效率和减轻认知负担。

人机智能交互系统联合决策能促进高效指挥

人工智能的加入将使未来的智能化战争更加快速、复杂和多变,战机可能稍纵即逝,因此智能化战争更要强调以快打慢、先发制人。随着指挥控制反应时间的大幅压缩,提高作战进程中指挥决策速度,是智能化作战的必然要求。

面对智能化战争快速、复杂、多变以及数据量庞大的特点,单纯依靠作战人员进行战场态势读取、分析、并做出决策已经不符合时代要求,“兵贵神速”,人机交互参与指挥决策是未来智能化战争发展的必然趋势。战争的指挥决策应当充分发挥人机协同互补优势,建立高效智能指挥决策体系。基于未来战争的特征及人工智能的局限性,我们有理由认为,未来智能化战争的指挥决策应当是人机协同、优势互补的。人类擅长归纳、推理、决策、指挥等艺术性要求高的活动,具有主动性、思想性、创造性,但人的生理和心理状态易受环境影响。机器则擅长搜索、存储、计算、优化等技术性要求高的活动,具有精准性、快速性、重复性,并且相对于人类而言,机器能够在复杂环境中突破生理极限、消除认知偏差、提供最优方案。

当前,基于人机合作关系,创新人机融合理念,开发“人机融合”智能装备,才是增强战斗力的发展方向。人的主观能动性在智能化过程中能够发挥的作用是无法替代的,因此,人应当在战争行动中充分发挥“监控者”或“参与者”的作用。一方面,智能化战争的战略和战术须由人来设计,指挥者需要依据作战目的、作战对象、战场环境等客观事实,合理分配有人和无人作战力量,并确定作战时机和具体作战行动,同时,在行动的攻防之变中施计用谋,灵活运用战略战术,促进技术与艺术的完美融合。另一方面,人工智能与机械工程、信息技术等的交叉融合,催生了能够增强人的体能与智能的新技术,目前基于可穿戴技术,已使部分智能装备实现了体能增强功能。可穿戴式技术实现了作战人员与智能化装备的有机融合,人的优势与智能装备的优势深度结合和互补,虚拟与现实空间平行一体,从而大大增强作战行动的效益。

人机交互技术在智能化战争时代具有显著优势,在未来战争中所发挥的作用不容忽视,因此成为了各国竞相投入研发的前沿科技,它未来将如何用于实战,又将发挥怎样的威力,就让我们拭目以待吧!(王琦骏、刘帅一、张颢月、申起有)

(责编:黄子娟、陈羽)

分享让更多人看到

CCCF专题丨信息无障碍中的智能交互技术

关键词:信息无障碍 智能交互

信息无障碍(informationaccessibility)是一个学科交叉的技术和应用领域,旨在用信息技术弥补残障人士生理和认知能力的不足,让他们可以顺畅地与他人、物理世界和信息设备进行交互。据中国残联统计,中国现有8500万残疾人,是世界上残疾人口最多的国家。其中,听力残疾2000万人,视力残疾1200万人,各类肢体残疾2500万人,智力残疾和精神残疾1200万人……随着社会老龄化程度加重,残疾人口数量也在持续增长。互联网和用户终端的普及,使得信息无障碍成为一个越来越值得关注的领域,目标是解决残障人士的信息访问甚至是生活服务问题。 

信息无障碍始于个人计算设备,IBM在1984年首次开发了基于桌面操作系统的读屏程序,让盲人可以使用电脑。1997年,万维网联盟(W3C)成立了网络无障碍推动(WAI)小组,推动网络页面的信息无障碍。随着人工智能技术的发展,语音识别、图像识别、手语翻译等技术也被应用到信息无障碍领域中,支持更多的残疾用户(比如聋哑人)通信和访问信息设备。微软在2018年推出了“人工智能无障碍计划(AIforAccessibility)”,国内的互联网公司阿里巴巴、百度等也积极推出智能读图等无障碍交互应用。

在学术界,专门交流无障碍技术的国际会议是ASSETS(ACMSIGACCESSConferenceonComputersandAccessibility),1994年是第一届。如今智能手机上基于触摸的读屏系统原型就是在ASSETS2008上提出的。2017年,人机交互领域的旗舰会议ACMCHI(ACMCHIConferenceonHumanFactorsinComputingSystems)将无障碍列为十大方向之一。

我国于2004年举办了第一届中国信息无障碍论坛。2006年,工信部把信息无障碍工作纳入“阳光绿色工程”,并由中国通信标准化协会(CCSA)开始系统化制定信息无障碍标准。2008年,工信部发布了首个网站设计无障碍技术标准,信息无障碍在“十三五”规划期间被纳入国家发展计划。

从研究和应用水平上看,信息无障碍总体还处于比较初步的状态。在应用上,针对信息访问和设备使用,具有基本功能的技术可以被应用,但效果和效率等可用性指标都不高;在现实生活中,针对听障人士与他人交流、盲人独立出行等,能支撑的新技术还处于原型和概念阶段。我们组织本期专题的目的,就是让读者了解无障碍领域目前存在的问题和研究进展,了解此交叉学科具有的重要研究与应用价值,希望更多的科技工作者能够介入或投身到相关研究中去,从各自的角度参与和贡献力量。

信息无障碍交互技术的现状

残障类型多样,所需要的无障碍技术也不尽相同,这里介绍三类主要的残障类型(视觉障碍、听觉障碍和运动障碍)人群遇到的问题和主要的技术解决方案。

视力残疾用户的需求包括独立出行、识别身边物体、与信息设备交互等。针对独立出行的需求,目前有基于计算机视觉的道路识别技术,通过立体声场或者震动反馈为视力残疾用户指示方向。但是这些设备目前还不能取代盲杖,还需要更多的技术突破。针对识别物体的需求,主要是利用视频/图像转换为文本的技术,包括微软的SeeingAI和谷歌的Lookout都是此类应用。针对使用手机和电脑的需求,主要采用读屏程序screenreader(苹果手机上的VoiceOver或者安卓系统上的Talkback,均为系统默认自带功能),可以通过语音读出获得焦点的控件信息,这样视力残疾用户通过听就能了解设备界面上的信息内容。

听力残疾用户面临的主要问题是与人交流存在障碍,以及观看视频内容时听不到声音。老年听力障碍是指随着年龄增长,听觉器官的衰老和退变所导致的听觉功能下降,发病率居世界第三位。助听器设备通过放大声音信号,可解决“听不到”的问题;但对于听觉中枢受损的人,声音信号分析能力却难以弥补,解决不了“听得清”的问题。针对听障用户,相关信息无障碍技术包括手语的识别与合成,以及语音识别技术。 

运动控制能力缺失的用户,包括上肢残疾,或者患帕金森症、脑瘫、肌肉萎缩、渐冻症等疾病的用户。他们丧失了灵活控制手指运动的能力,而手指是人表达交互意图的主要运动器官,也是电脑和手机的主要操作器官。在构建面向这类用户的信息无障碍交互技术时,其中一个难题是用户的差异性,几乎每个用户的可运动部位及其运动能力都是不同的,给构建适合于个体的通用输入技术带来了挑战。相关的技术方案有眼动,但是用“眼动”作为输入方式时,缺少“确认”操作,容易产生误触发,且操作精度有限。

信息无障碍的主要科学问题

音视频的理解和信息转换(主要针对听障和视障)。视觉和听觉是人们接受信息的主要感官。听障和视障用户因为缺乏某种感官而无法完整理解信息,需要建立音视频的理解技术,用机器算法理解音视频内容的语义,进而转换为用户可用感官能接受的信息类型,包括音频和文字之间的语音识别和文本到语言(TextToSpeech,TTS)技术,图像到文字和视频到文字的技术。目前,精度是主要问题,尤其是克服多种噪声条件下的高精度实现,对于这些技术的可用性起到关键作用。

图形用户界面到声音界面的编码转换(主要针对视障)。个人电脑和手机都是图形用户界面,信息以可视的方式传递给用户,而视障用户只能通过听觉(触觉为辅)来接收信息,相比于视觉,不仅信息接收的带宽要低很多,而且信息呈现的模式也发生了变化。视觉提供整体和并行的信息获取能力,听觉只能提供局部串行的信息。这也会影响用户对于交互界面的心理模型,进而影响到交互决策。因此,需要研究从图形界面到声音界面的编码转换方法,优化“读屏”的方法。

个性化信息输入和意图理解(主要针对视障和运动障碍)。人体的运动控制系统包括运动执行和反馈两部分。运动障碍用户无法精确灵活地控制手指运动,视障用户由于缺少视觉反馈也不能做精确的输入控制,导致物理运动自由度受限和运动控制精度低的问题。前者需要开发具有个性化能力的输入技术,根据用户实际可以控制的输入范围来映射有效的输入;后者需要实现从有噪声的运动控制数据中提取用户的交互意图。 

通过智能交互技术实现信息无障碍

信息无障碍是以用户为中心的交互方案,是对人的交互性能的优化。优秀的信息无障碍技术要适应用户的生理和认知能力,而不是让用户适应技术。为此,要采用智能交互方法来开展研究,从用户角度来设计和创新适用的交互模式,通过智能传感、智能用户意图推理和智能信息呈现来构建信息无障碍的交互界面。

对用户行为和认知能力的准确建模 需要建立用户动作能力和心理模型的计算模型,建立并引入生理、心理的先验知识来描述用户的信息输入输出能力,对用户意图、表达方式、动作控制能力做统计建模和描述。残障用户的一个重要特点就是个性化,每个用户的信息输入输出能力都不同,除了需要研究合适的模型函数,还要研究个性化参数的计算方法,力求能准确地描述个体残障用户的能力。

智能的感知技术  需要研究高精度的感知技术,感知用户的外在动作,也感知用户的内在心理状态。信息无障碍中,智能感知的应用场景非常丰富,针对不同类型的残障用户、不同的交互任务、不同的使用情景,都需要适合的传感方案。哪些动作或者心理状态是有交互价值的,如何采用成本可控、易于部署的硬件方案都是需要考虑的问题。

智能的意图推理技术  残障用户通过自然动作(手、眼或身体其他部位)表达交互意图。优化信息无障碍的交互体验,需要使用户在表达意图时的生理和心理开销最小化,但这样将导致用户的表达方式和表达动作都是不精确的,在时间和空间上都存在随机性。如何从连续随机的行为数据中提取用户的输入意图,是需要解决的问题。作为操控型的交互界面,需要具有高精度、可理解、结果可预测的特点。

智能的信息呈现 感官残障用户对于交互界面的理解是不完整的,交互决策的心理模型带有随机性。高可用的信息无障碍交互界面,首先需要有对用户信息需求的预测能力,确定信息输出的目标;然后根据用户的信息接收能力将目标信息编码到具体模态上,编码方式涉及多模态融合;最后根据交互情景,对信息呈现的编码方式做动态优化调整,保证用户接收信息的有效性。

本期专题

本期专题邀请了5篇文章。美国康奈尔大学的EnhancingAbilityLab实验室是一个国际著名的面向弱视用户的研究团队,赵宇航和ShiriAzenkot教授撰写的《利用增强现实技术增强弱视人士的视觉能力》详细介绍了增强现实技术是如何改善视弱人士的日常活动的。中国科学院计算技术研究所研究员陈益强和王向东的研究团队长期开展面向聋人和盲人的信息无障碍技术的研究,他们分别撰写了文章《面向聋人的信息无障碍技术——手语识别与合成》与《面向盲人的信息无障碍技术——盲文翻译与识别》。中国残联与清华大学在2016年成立了清华大学无障碍发展研究院,计算机系人机交互实验室发挥其专业能力,在研究院重点开展信息无障碍交互技术研究,易鑫等人共同完成的《基于稳态视觉响应的脑电接口动态分组键盘技术》详细介绍了脑电响应的影响因素和为肢残用户设计的优化交互信息效率的动态分组键盘技术;石伟男和喻纯撰写的《基于字符级纠错的智能键盘》分析了盲人在触屏手机上键入文本时的难题,他们构建的适合于盲人的智能输入法获得CHI2019最佳论文提名奖。

作者简介

史元春

CCF会士,CCF常务理事,CCCF前专题主编。清华大学教授。主要研究方向为人机交互、普适计算、多媒体、网络教育技术等。shiyc@tsinghua.edu.cn

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇