【人因工程】人机交互接口概述
目录一、研究背景二、研究意义三、研究现状3.1传统人机交互与智能人机交互的特点3.2智能人机交互的研究现状四、总结参考文献一、研究背景人类不仅具有感知、记忆和思考外界环境信息,而且拥有根据信息内容作出决策的认知能力,还具有情绪表达、共情、人际交往等社会行为能力,更具有自我反省等复杂的综合能力。随着认知神经科学的发展,其与信息科学、计算科学及其他工程科学之间的联系变得越来越紧密,彼此间的互动变得越来越活跃。人机交互的研究应运而生。
人机交互(HCI)是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。人机交互是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件,甚至是人工智能。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流、操作、使用。随着模式识别,如语音识别、汉字识别等输入设备的发展,操作员和计算机在类似于自然语言或受限制的自然语言这一级上进行交互成为可能。
人机交互的不断更新发展,促成了人因工程科学与计算机研究相融合的一个典型新生领域:人机交互接口。人机交互接口是指人与外部设备间建立的直接连接通路,实现人机之间的信息交互。
基于人工智能技术的各类智能系统正在改变传统人机交互领域的人机关系模式和研究范式。智能系统中的智能体在特定操作场景中具备情境感知、用户意图识别、自主学习、自主决策、自主执行等能力,由此带来了一个新的研究领域:智能人机交互(iHCI)。iHCI是AI技术与人机交互技术不断发展和融合的产物,目前已经进入人们日常的工作和生活中。例如,语音交互、人脸识别等。
二、研究意义在交互模式上,人机交互技术利用视觉、听觉等多模态交互,能提高人机交互的自然性和有效性;从交互技术来看,人机交互领域研究正在向用户生理和情感计算、用户意图识别等方面发展;在交互理念上,人机交互研究注重人机协同合作等方面,强调“以用户为中心”的人机组队(human-machineteaming)合作。例如,文献[1]关注了一个对人与AI互补的关键因素:人类对人工智能能力的心智模型,特别是人工智能系统的错误边界,即知道“人工智能什么时候出错”。同时文章着重讨论了人工智能误差边界的两个关键性质:简约性和随机性,为人机交互模型选择和优化提供参考。从研究层面来看,人机交互研究正在促使人、智能系统以及社会技术系统之间的紧密结合,解决智能技术的责任、伦理、道德等问题。
三、传统人机交互与智能人机交互的特点人机交互分为两大类:传统人机交互与智能人机交互。传统人机交互的人因工程研究主要针对人与非智能系统之间的交互;而智能人机交互主要针对人与智能体之间的交互。文章中分别阐述了两种人机交互的特征。
传统人机交互有如下特征:
第一,计算系统被动地接受用户输入,只能够单向地服从于用户,接受和执行用户指令,并且根据算法和规则做出相应的输出反应。
第二,人机之间的交互主要基于“刺激-反应”的物理关系。人机系统只有人类操作员这一单一认知体,非智能系统不拥有智能自主化等类似人类的认知特征。
第三,机器输入的感知目标主要是人、机、物等简单属性,例如显示器目标位置、颜色、移动轨迹等。文献[3]进行眼睛凝视和头部运动线索在换道意图预测中的比较研究,结果表明眼睛凝视的添加能够提高驾驶性能。
第四,基于人类的精准输入形式(通常是单一精准的输入),例如键盘、鼠标输入,系统不必关注用户行为和意图等状态,但是限制了人机交互的应用。
第五,机器不拥有智能自主化特征能力,人机系统中只有人类智能,不存在人与机器智能之间的互补。
智能人机交互系统有如下特征:
第一,人与智能体的交互是双向的,智能系统可以通过感应系统来捕获和理解用户生理、认知、情感、意图等状态以及环境上下文场景等信息,主动地启动人机交互任务(例如环境智能,脑机界面)。如文献[5]所言,人与智能体借助模型可预测对方行为,双向适应对方,双向均可分享信任、情景意识、意图、决策控制等。
第二,作为拥有自主化特征的机器智能体,智能体与人的交互中可以进行自主感知、理解、自主学习、自主执行等,人与智能系统(智能体)成为协同合作的队友,整个人机系统可以成为协同合作的两个认知体,分享信息、任务、目标、控制等。文献[6]指出当使用智能人机交互系统时,操作员扮演关键的监控角色,可以在智能体无法处理的情况下进行干预。但文章也承认,许多复杂的智能人机交互系统在处理意外情况时非常脆弱。这种脆弱性在民航、自动驾驶等领域可能引发严重事故。
第三,智能系统输入的感知目标更具“情境化”:通过对操作场景上下文、用户行为等数据,针对“情境化”特征进行智能推演(例如用户行为体征刻画,用户消费行为画像,城市交通流量情境等),从而提供适合当前场景、满足用户需求的系统输出。
第四,智能系统有可能从不确定性条件下,从基于多模态通道的人机模糊交互(例如用户内在的交互意图,多样的应用场景,随机的交互信号数据和环境噪声)中推理出用户意图,并做出合适的系统反应,提高人机交互的自然性和有效性。
第五,人类的生物智能(人的信息加工等能力)与机器智能(模式识别、推理等能力)之间可形成互补,在人机交互中形成更强大的、可持续发展的人机混合智能。
参考文献1.Bansal,G.,etal.,BeyondAccuracy:TheRoleofMentalModelsinHuman-AITeamPerformance.2019.
2.Xu,W.,UserCenteredDesign(VI):HumanFactorsApproachesforIntelligentHuman-ComputerInteraction.2021.
3.Doshi,A.andM.Trivedi,Acomparativeexplorationofeyegazeandheadmotioncuesforlanechangeintentprediction.2008.49-54.
人工智能研究的三个热点是什么
随着不断提高的计算机速度、不断扩大的存储容量、不断降低的价格,以及不断发展的网络,很多在以前无法完成的工作在现在都能够实现。当前,智能接口、数据挖掘、主体及多主体系统是人工智能研究的三个热点。
人工智能经历了三次飞跃阶段:实现问题求解是第一次,代替人进行部分逻辑推理工作的完成,如机器定理证明和专家系统;智能系统能够和环境交互是第二次,从运行的环境中对信息进行获取,代替人进行包括不确定性在内的部分思维工作的完成,通过自身的动作,对环境施加影响,并适应环境的变化,如智能机器人;第三次是智能系统,具有类人的认知和思维能力,能够发现新的知识,去完成面临的任务,如基于数据挖掘的系统。
AI研究出现了新的高潮,有两个方面的表现,一方面在于人工智能理论方面有了新的进展,另一方面是由于突飞猛进发展的计算机硬件。随着不断提高的计算机速度、不断扩大的存储容量、不断降低的价格,以及不断发展的网络,很多在以前无法完成的工作在现在都能够实现。当前,智能接口、数据挖掘、主体及多主体系统是人工智能研究的三个热点。
(一)智能接口技术是研究如何使人们能够方便自然地与计算机交流。为了实现这一目标,要求计算机能够看懂文字、听懂语言、说话表达,甚至能够进行不同语言之间的翻译,而这些功能的实现又依赖于知识表示方法的研究。因此,智能接口技术的研究既有巨大的应用价值,又有基础的理论意义。目前,智能接口技术已经取得了显著成果,文字识别、语音识别、语音合成、图像识别、机器翻译及自然语言理解等技术已经开始实用化。
(二)数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但是又潜在有用的信息和知识的过程。数据挖掘和知识发现的研究目前已经形成了三根强大的技术支柱:数据库、人工智能和数理统计。
(三)主体系统是具有信念、愿望、意图、能力、选择、承诺等心智状态的实体,比对象的粒度更大,智能性更高,而且具有一定的自主性。主体试图自治、独立地完成任务,而且可以和环境交互,与其他主体通信,通过规划达到目标。多主体系统主要研究在逻辑上或物理上分离的多个主体之间进行协调智能行为,最终实现问题求解。
今天,AI能力更倾向于应用到人类或其他动物智能的某一或某几方面,并用自动化替代,有时候也用于对其进行模拟。不过在有些情况下,这些在高性能计算机调度之下的智能行为远远比人类的行为更为强大。
(一)路径查找和路径规划。在最小代价路径规划和路径查找系统中,可以使用专门的技术――它们中有一些非常灵巧微妙,另一些则仅仅是用蛮力解决――来模拟对理解的直觉迅速转换或者对普通人大脑生成过程的识别,结果有时非常令人惊讶!路径查找就是路径规划问题的一种变体。
为了找到最佳路线,我们需要计算通过每一个往返路线的时间开销。时间就是金钱;所以,我们更倾向于关注最小代价路线。这也适用于飞机航线的制定,它们需要在不同的城市中逗留或更换航班等等。
(二)逻辑和不确定性。计算机编程就像是使用逻辑砖块建造一栋房子一样。事实上,人工智能编程通常被认为有两种逻辑形式――命题逻辑和形式逻辑――的一种特殊混合应用,也被认为是一种谓词演算。更进一步说,编程语言中,我们更是采用了一个命题逻辑更加专门化的形式:布尔逻辑或者布尔代数。
命题逻辑应用于具有真和假两种状态的断言以及命题领域之中。古典命题逻辑或者布尔逻辑处理的都只有两种状态:或者为真,或者为假。
对象之间联系以及这些联系的真假值(布尔形式)在内的命题逻辑的一种强化延伸就是谓词演算(和中学学的数学计算毫无关系)所包含的。
但是当我们在逻辑中使用这些谓词的时候,就算是最复杂的逻辑语句,我们最终获得的也只是一个黑白分明的世界:一个事物不是真的就是假的。如果一个事物不是真的也不是假的,那么它一定是不存在的事物。否则,它必然两者居其一。
(三)自然语言处理。在AI应用中最重要的一部分就是自然语言处理。但是,现实却是,自然语言处理系统并不能像人类那样能很好地分析这些并没有太强逻辑结构地说出的以及写出的词语的含义。不过这样有限的功能对于残障人士、翻译系统、词语处理拼写和语法检查器来说仍然是非常有用的。
(四)神经网络。一种信息处理结构就是神经网络,对诸如大脑之类的生物学神经系统进行尝试模仿来进行单纯数据的转换成为信息,就是它的原理。神经网络由很多相互联系的处理小元素:神经节点,功能相当于一个大脑神经细胞和神经元(synapse)组成,它们相互交互,共同解决具体问题。神经网络上的元素将输入模式转换成为输出模式,而这些输出模式又同时可以成为其他神经网络的输入模式。神经网络通过实例学习,这一点和人类的做法一样。神经网络需要设置为适用于某些具体应用中,比如通过学习过程识别图像。而对于生命系统本身,我们对学习的过程涉及到神经细胞之间的突触联系的调整这一说法保留质疑。
当前,大部分AI能力的研究方向是研究如何完整地模拟一个智能过程,而不是对器官所使用的每一个低级步骤进行再现。一个极端显著的示例就是利用数据库和搜索软件获取信息的专家系统。数据库向大脑提供基本没有任何关联的数据,同时这些数据的传输和其在大脑中的存储形式也毫不相同。但是很多专家系统还是能够相当好地担当起诸如像内科医生这样的专业角色。当然它们也仅仅被应用于它们非常熟悉的领域。
在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!