科学网—人机交互与人工智能：从交替浮沉到协同共进人机交互和人工智能的区别是什么意思啊

发表时间：2023-07-14 18:25:11

科学网—人机交互与人工智能：从交替浮沉到协同共进

人机交互与人工智能：从交替浮沉到协同共进

已有6690次阅读2019-3-2214:34|个人分类:《中国科学》论文|系统分类:论文交流

观点与争鸣

□范向民,范俊君,田丰,戴国忠

[中国科学院软件研究所人机交互北京市重点实验室]

人机交互与人工智能是智能信息时代备受关注的两大重要研究领域.通过人机交互与人工智能发展历程可以发现,二者的关系从过去的此起彼伏逐渐变成了当下的相互促进,基于二者深度融合的典型应用也在教育、医疗等关键领域不断涌现.人机交互为人工智能提供了应用需求和研究思路,而人工智能也驱动了人机交互技术的发展和变革.放眼未来,人机交互与人工智能将保持当下这种相互促进、互相驱动的关系,更加深入地融合并协同发展.

01 交替浮沉的历史

“人工智能”(artificialintelligence,AI)这个词最早出现在1956年召开的达特茅斯(Dartmouth)“人工智能夏季研讨会”上.参加这次研讨会的人员多数是当时著名的数学家和逻辑学家,包括达特茅斯学院约翰·麦卡锡(JohnMcCarthy)、哈佛大学马文·明斯基(MarvinMinisky)、IBM纳撒尼尔·罗彻斯特(NathanielRochester)和贝尔电话实验室克劳德·香农(ClaudeShannon)等等,他们被认为是人工智能领域的开拓者.人工智能的概念一经提出,就被当时的人们赋予了很高的期望.1960年,诺贝尔奖获奖者、人工智能先驱之一赫伯特·西蒙(HerbertA.Simon)写道:“机器在20年内将可以从事任何人类可以从事的工作”.1970年,马文·明斯基写道:“我们将在3～8年的时间内拥有一台达到人类平均智力水平的具有通用智慧的机器,它可以去读莎士比亚的作品,给汽车添润滑油,玩弄办公室政治,讲笑话或者吵架.机器会以不可思议的速度自我学习,并在几个月后达到天才的水平且拥有不可估量的能力”.不难看出,当时的研究人员对人工智能发展的期望是构建能复制或超越人类行为和智慧的强大的智能体.有着这样雄心勃勃的愿景,当时的人工智能研究自然而然受到各方面的关注,也受到极大力度的经费支持,使得人工智能在60到70年代迅速成为一个初具规模的研究领域.

人机交互(humancomputerinteraction,HCI)可以说是伴随着计算机的诞生就自然产生的话题,它的科学起源可以追溯到1960年约瑟夫·利克莱德(J.C.Licklider)发表的一篇名为“人机共生”(Man-ComputerSymbiosis)的文章,其中提到人应与计算机进行交互并协作完成任务.然而,在当时人工智能如火如荼的时代,人与计算机交互中的相关问题似乎显得有些微不足道.比如怎样优化界面布局、命令名称、文字编辑器等等.人们更愿意相信即将出现的智能机器将解决包括这些问题在内的所有问题.尽管大环境如此,还是有一些极少数的实验室和研究人员专注于人机交互的研究.比如在1963年,MIT的博士生伊凡·苏泽兰特(IvanSutherland)在博士论文中提出一种崭新的交互技术“SketchPad”,其中涉及了很多界面相关的概念,包括第一个图形用户界面的雏形.这项技术被认为对后来人机交互尤其是图形用户界面发展影响最为深远的突破,苏泽兰特也因此获得了1988年的图灵奖.温伯格(Weinberg)1971年的著作《计算机编程心理学》是人机交互领域研究重要的心理学基础.然而,该著作局限于针对在当时能够操作那些昂贵机器的程序员,而非广大的普通用户.可以说,人机交互在人工智能的第一次热潮中萌芽并缓慢发展.在之后相当长的一段时期内,两个领域的发展呈现交替浮沉的规律,即在一方发展迅猛的时候,另一方相对沉寂,反之亦然.这种规律实则体现了两个领域在经费、人力等资源上的竞争关系.

1973年,詹姆斯·莱特希尔(JamesLighthill)向英国科学研究委员会提交报告,介绍了人工智能研究的现状,他得出结论称:“迄今为止,人工智能在各领域的发现并没有带来像预期一样的重大影响”.这个报告最终导致政府对人工智能研究的热情迅速下降,成为人工智能第一次寒冬开始的标志.人工智能的研究者因为设定的目标过高而陷入窘境,他们错误估计了为实现自己设定的目标所需要付出的努力.冷静下来后,人们自然想到的问题是怎样才能让人工智能更加实用.1977年,《人工智能》发表了一篇由人工智能和早期人机交互研究者共同署名的文章,讨论了自然语言理解领域里面的“可用性”的问题.某种意义上,这篇文章成为当时人们思想转变的代表性的标志:如何让人工智能变得实用?紧接着的十年里,人机交互迅速发展.一批具有巨大影响力的人机交互实验室建立,包括PARC,IBM,Digital,贝尔实验室等等.它们对1982年ACMSIGCHI的成立起到了至关重要的推动作用.加州大学圣地亚哥分校的唐·诺曼(DonNorman)在20世纪70年代和80年代在人工智能论坛上发表了与人机交互相关的工作,领导大学参加了早期的CHI会议(人机交互领域顶级会议,TheACMConferenceonHumanFactorsinComputingSystems,简称CHI).毫无疑问,70年代中后期人工智能的第一次寒冬成为了人机交互发展的第一个黄金时期.

1981年,日本国际贸易和工业部向“第五代计算机”项目投入8.5亿美元,该项目目标是开发出可以对话、翻译并像人一样推理的计算机.这个事件又将人工智能推到风口浪尖,使其进入第二次热潮.美国和欧洲多个国家相继投入大量经费.尽管研究的内容还是像第一次热潮一样,以逻辑表达和启发式搜索为代表,人们这次明显要谨慎很多.比如,在这次人工智能热潮中,“人工智能”这个词语相对来说被使用的频率并不高,更多被提到的是“智能知识系统”、“专家系统”、“知识工程”、“医疗诊断”等等.人们的目标由最初的“通用智慧”逐渐降低到“领域智慧”,更多地希望人工智能能真正解决特定领域的一些难题.然而,以符号为主的表达与推理还是离现实世界太远,难以真正解决落地的问题.我们很少能够看到这些专家系统取代医生或者其他领域专家,不过这些研究依然为我们提供了有用的技术,并在生产管理中得到了一些应用.

在80年代的人工智能热潮中,人工智能研究人员和主流的媒体认为语音和语言理解将会成为未来人与计算机沟通的主要渠道.虽然图形用户界面(graphicaluserinterface,GUI)在1985年发布的Macintosh电脑中大获成功,但这些进展依旧无法跟人工智能宏伟的愿景相提并论.更为关键的是,人工智能研究人员掌握着大量的经费和媒体及民众的广泛关注.1982年,ACMSIGCHI成立,1983年召开了第一届CHI会议.尽管ACM是主要赞助方之一,然而1983年和1984年这前两届的CHI却鲜有计算机科学家参加,更多的是认知心理学家和人因工程师.1985年GUI成功的商业化使得基于GUI的研究不必再基于昂贵的计算机,极大扩展了人机交互相关研究的空间,也因此吸引了大量的计算机科学家参加CHI.与此同时,人机交互和人工智能开始出现了一些融合的迹象.人机交互吸引了一些致力于研究如何辅助用户更好地使用工具的人工智能学者,其中包括当时在加利福尼亚大学圣地亚哥分校(UniversityofCalifornia,SanDiego)和海军研究办公室的吉姆·霍兰(JimHollan),他在建模和可视化的早期成果发表在人工智能的会议.还有格哈德·菲舍尔(GerhardFischer),专注于教练系统和评论系统,相关工作同时发表在人机交互和人工智能的会议上.越来越多的CHI的文章涉及当时流行的人工智能技术,比如建模、自适应界面等等.政府也对“usableAI”的概念非常感兴趣,他们资助了很多研究语音系统、专家系统和知识工程中的人因研究的项目.

人工智能在80年代末再次因为没有做出实际能够落地的成果而陷入低谷.从AAAI的参会人数可见一斑.1986~1988年AAAI参会每年4000~5000人,1990年降到3000人,1991年不足2000人,后来相当长一段时间稳定在1000人左右.与此同时,人机交互进入了又一个黄金时期.很多学校的计算机系将人机交互列入核心课程,并聘用人机交互教员.人机交互毕业生人数也大幅上升.不少之前在人工智能领域的研究人员开始在CHI上发文章,包括推荐系统的研究人员MIT的佩蒂·梅斯(PattiMaes),密歇根大学的保罗·瑞斯尼克(PaulResnick),明尼苏达大学的乔·康斯坦(JoeKonstan)等,以及沙龙·奥维亚特(SharonOviatt)的语音识别研究的工作和埃里克·霍维茨(EricHorvitz)关于机器学习的工作.这一时期CHI的投稿数量和参与人数均在稳步上升.

02相互驱动的当下

经历了人机交互与人工智能的两次大起大落后,人们不再抱有让计算机的能力全面超过人类这种在当前技术条件下不太可能实现的幻想,转而更加注重真正能够落地的更实际的研究工作.这种转变造成的结果就是人工智能领域逐渐分化为以概率模型和随机计算为基础的五大相对独立的学科方向,包括计算机视觉、自然语言理解、认知科学、机器学习和机器人学.关于通用人工智能,即在各个方面都能达到或超过人类水平的智能体的呼声越来越少,而针对特定场景和任务的人工智能研究取得了很大的进展和成功.在图像和语音识别方面,机器已经达到了普通人类的水平;在棋类游戏方面,1997年深蓝在国际象棋上、2017年AlphaGo在围棋上均已经击败了当时最顶尖的人类棋手.这些方面的进展大大驱动了人机交互的发展.以图形用户界面和键盘、鼠标等直接操控设备为主流的人机交互方式很难使人与计算机实现如同人与人之间那样高效自然的交互,而语音识别、手势识别、语义理解、大数据分析等人工智能技术能帮助计算机更好地感知人类意图和用户状态,进而增强人机之间的交互带宽,使计算机更“懂”用户,实现以人为中心的计算和真正自然的交互. 可以说,人工智能的发展不断革新着人机交互的方式,驱动人机交互由传统方式向更智能、更自然的方式进步.

与此同时,人机交互同样驱动着人工智能的发展.机器学习先驱MichaelJordan提出“人工智能最先获得突破的领域是人机对话,更进一步的成果则是能帮人类处理日常事务甚至做出决策的家庭机器人”.人机对话的需求推动了相关人工智能技术的发展,例如苹果的Siri、微软的小冰、谷歌的GoogleHome、亚马逊的Echo等,都是为了解决传统人机对话方式低效不自然的问题而催生的人工智能应用. 当前以图形用户界面为主流的人机交互方式依然面临着交互带宽不足、交互方式不自然等局限,要解决这些交互中的挑战,需要在情境感知、意图理解、语音和视觉等方面取得更大的突破,这些来自人机交互的需求也在不断驱动着人工智能的发展与进步.

人机交互与人工智能的融合达到了空前的力度,专注于人机交互+人工智能的期刊和会议越来越多,论文数量和影响力不断提升.第一届ACMIUI(IntelligentUserInterfaces,智能交互领域顶级会议)在1993年召开(1997年召开第二届,之后每年一届),专注于利用最新的人工智能技术,包括机器学习、自然语言处理、数据挖掘、知识表达与推理等提高交互的效率和体验.IUI的投稿数量在2018年达到了历史最高水平(371篇).另外,“UsableAI”会议也从2008年开始举办,目的是填补人机交互和人工智能系统设计的鸿沟,使得人工智能的成果能够真正用到人们日常使用的系统中.同时,ACM也创立了专注于智能交互的期刊TiiS(TransactionsonInteractiveIntelligentSystems),并得到了学术界和业界广泛的关注和认可.各大科技公司也先后启动了相关项目,包括谷歌的“Human-Centered MachineLearning”,IBM的“HumanMachineInferenceNetworks”,华为的“IntentionBasedUI”等等,旨在通过研究人工智能和人机交互的融合方法,将人工智能技术变得更加可靠,同时将人机交互变得更加自然和方便.

在早期,我国学者在人机交互领域做了许多研究工作,如语音交互、笔/手势交互、多通道感知、行为理解等,同时也取得了一定的成果.由北京大学计算机系、杭州大学工业心理学国家专业实验室和中国科学院软件研究所3家单位合作承担的国家自然科学基金重点项目“多通道用户界面研究”(1995~1997),是我国学者首次对多通道用户界面进行的系统性研究工作,对多通道用户界面的模型、描述方法、整合算法、开发环境、评估等方面都进行了一定的探索并取得了基础性的研究成果.除此以外,中国科学院软件研究所、中国科学院计算技术研究所、清华大学等单位在笔式人机交互、智能界面、自然语言交互等方向也都做了大量工作.

近年来,我国不断加大投入力度,力争抢占人机交互这一未来信息技术战略制高点. 由中国计算机学会人机交互专委会、ACMSIGCHI中国分会等联合举办的全国人机交互学术会议(ChineseHumanComputerInteraction,CHCI)迄今已经举办了14届,旨在为中国人机交互研究领域提供一个交流最新科研成果、展望未来人机交互发展趋势、促进人机交互领域产学研紧密合作的交流平台.2011年11月的《计算机学会通讯》“人机交互”专题围绕自然人机交互的基础研究、概念、关键技术和方法等多个层次,邀请了国内多位人机交互领域的专家撰文,从不同角度进行介绍和探讨.2018年5月,《计算机学会通讯》组织专题“自然人机交互”,邀请了多位学者从不同角度诠释了自然人机交互的理论、方法、进展及挑战,涵盖了自然交互场景中的心理模型、动作模型等多个基础模型及触觉交互、生理交互等多项交互技术.我国中长期科技发展计划已经把人机交互列入前沿技术和基础研究的重要内容.2009年发布的《中国至2050年信息科技发展路线图》将人机交互列为重要发展内容.2011年“自然高效的人机交互”被写入《10000个科学难题–信息科学卷》.此外,国家还支持了一批包括重点研发计划“云端融合的自然交互设备与工具”和“人机交互自然性的计算原理”、自然科学重点基金“自然人机交互基础理论和方法研究”等项目,不断推动人机交互与人工智能的融合和发展.在国家科技政策的支持下,中国科学院软件研究所、清华大学等人机交互团队在自然人机交互和智能交互领域取得了一系列突破性进展,在笔/手势、普适计算、多通道融合、情感计算、增强现实中的人机交互等新的领域产生了一系列非常有价值的成果.

笔/手势交互是人机交互领域重要的研究方向,而将人工智能方法引入笔/手势交互,可以实现更智能、更自然的交互效果.中国科学院软件研究所人机交互研究团队在笔/触控交互方面进行了深入研究,其理论成果包括笔式界面范式、笔式用户模型、笔式用户界面描述语言、草图用户界面等在国内外产生了深远的影响,应用成果包括笔式电子教学系统、笔式体育训练系统等已成功应用在教学、体育等领域并起到了重要作用.在手写笔迹识别方面,华南理工大学团队提出了基于全卷积多层双向递归网络的Ink识别新方法,研发了CNN手写识别模型的高性能压缩及加速技术,实现了基于云计算平台的云端手写识别引擎.该方法的性能突出,ICDAR手写中文文本行识别正确率达96.6%,联机手写单字符识别准确率达到97.9%,速度比主流方法快30倍,存储量小10倍,处于世界领先水平.随着可穿戴设备的兴起,普适计算环境下人机交互成为了人机协同发展的瓶颈.清华大学在智能交互、普适计算等方面的应用研究做出了重要成果,例如COMPASS, One-DimensionalHandwriting 等方法有效解决了智能手表、智能眼镜等普适计算环境下的文本输入问题.同时,清华大学与阿里巴巴宣布达成战略合作,依托于清华大学美术学院共同成立清华大学–阿里巴巴自然交互体验联合实验室,探索“下一代人机自然交互”的未来.双方将以“人”为中心,探索“人–机器–环境”之间的关系,让机器以更自然的方式与人类互动、服务人类.双方将在实体交互、多通道感知等领域开展研究,让机器具备听觉、视觉、触觉等“五感”,并理解人类情感,以此推动人机交互变革.

情感认知计算是自然人机交互中的一个重要方面,赋予信息系统情感智能,使计算机能够“察言观色”,将极大提高计算机系统与用户之间的协同工作效率.而情感的感知和理解离不开人工智能方法的支撑. 例如,针对人脸自发表情实时跟踪与识别的过程中存在的环境复杂度高、面部信息不完整等挑战,中国科学院软件研究所借助内嵌三维头部数据库恢复个性化的三维头部模型研发的人脸情感识别引擎在非限制用户无意识动作情况之下可实现人脸表情稳定准确跟踪,已在上海智臻智能网络科技股份有限公司的“小i机器人”系列产品中进行了应用,获得业界广泛好评.另外,由中国科学院软件研究所、中国电子技术化标准研究院和上海智臻智能网络科技股份有限公司联合提出的国际标准“InformationTechnology-AffectiveComputingUserInterfaceFramework”于2017年2月的ISO/IECJTC1/SC35的工作组会议上获得正式立项.此标准不仅是中国牵头的第一个人机交互领域国际标准,也是用户界面分委会首个关于情感计算的标准.该标准一旦发布,将填补国内外该领域标准的空白,并对今后情感交互的发展产生深远影响,推动人机交互往更加人性化、智能化的方向发展.

此外,基于人工智能和人机交互深度融合的典型应用也在教育、医疗等关键领域不断涌现. 其中,中国科学院软件研究所和北京协和医院在神经系统疾病的非干扰、定量化辅助诊断方面做了大量的研究工作并取得了突出成果.该工作基于人机交互、医学、心理学等学科理论基础,融合前沿人工智能方法和技术,对笔/触控、步态、伸展等运动建立多通道交互模型,从用户语音、书写、手机触控等日常交互行为中提取关键特征,实现神经系统疾病的早期预警和辅助诊断.相关系统软件作为脑血管神经疾病的常规检测工具,应用在了国家脑血管神经疾病的流行病学调查中,已经在中国医学院北京协和医院、中南大学湘雅医院等得到了有效应用,并同时扩展到了北京、天津、长沙、大连等多家三甲医院.在工业界,腾讯公司则推出了一个可以帮助医生诊断帕金森病的AI辅助诊断技术,将原本需要30分钟甚至更久的帕金森病诊断过程,提速到只需要3分钟就能完成.而科大讯飞股份有限公司将人工智能引进教育行业,不仅能使未来的学校、机构运转的效率更高,还有可能帮助人类实现孔子时代就提及的教育理想——“因材施教”.

03 协同共进的未来

放眼未来,我们有理由相信人机交互和人工智能将保持当下这种相互促进、互相驱动的关系,更加深入地融合并协同发展.回顾历史,人工智能的发展历程很大程度反映了计算机技术的发展历程,而计算机技术发展的最终目的是为人类服务.为了让人工智能很好地服务于人类,我们不仅要不断突破人工智能技术瓶颈,还要研究人的特性,以及研究人与人工智能技术交互过程中出现的实际问题.而这些同样也正是人机交互所研究的问题.因此, 人机交互和人工智能具有相同的研究目标和研究对象,是相辅相成、相互促进的关系. 在人工智能发展遇到瓶颈之时,人机交互往往能够提供新的研究思路;同时,人工智能的发展则会不断突破和革新人机交互的方式并最终驱动人机交互的发展.

《埃森哲技术展望2017》指出:AIisthenewUI.文中提出了人工智能将从后台运营工具转变为更简洁、更方便的用户服务工具.人机交互必将是实现人工智能这个角色转变的关键所在.随着计算机处理与存储能力的不断提升,使用人工智能技术门槛和成本不断降低,意味着人工智能会越来越多地被应用到人机交互领域.而互联网浪潮的兴起,诸如推荐系统之类的人工智能成果出现在实际产品之中,让我们有理由相信类似的应用在未来会越来越多.好的用户接口是人工智能技术成功落地的必要条件,从这个角度来讲,人机交互与人工智能间的纽带将不断增强.人工智能研究人员正在获得基本的人机交互技能,更多的人机交互研究人员采用人工智能技术. 两个领域有着共同的研究目标和研究对象,融合是大势所趋,是下一代研究人员和系统开发人员的目标.

2017年7月,国务院发布《新一代人工智能发展规划》,是我国在人工智能领域发布的第一个系统部署文件,描绘了未来十几年我国人工智能发展的宏伟蓝图,重点对2030年我国新人工智能发展的总体思路、战略目标和主要任务及保障措施进行了系统的规划和部署.《新一代人工智能发展规划》将“人机混合智能”列为亟需突破的基础理论瓶颈之一,着重研究“人在回路”的混合增强智能、人机智能共生的行为增强与脑机协同及人机群组协同等关键理论和技术,并指出未来“人机协同成为主流生产和服务方式”.提升人机交互效率、使计算机具有认知能力是实现这一目标的必要条件.李未、郑南宁、李德毅、高文、吴朝晖院士和周志华教授等专家团队在人工智能及相关领域取得了重大突破,为人机协同进一步发展和应用奠定了坚实的基础.

下一个时期,将是人机交互和人工智能紧密深度融合,协同共进的时期.我们相信两者此消彼长的时代已经结束,而即将进入一个大集成、大变革的时代.

欢迎下载原文PDF▼

人机交互与人工智能:从交替浮沉到协同共进

范向民,范俊君,田丰,戴国忠

中国科学:信息科学,2019,49(4):361-368

http://scis.scichina.com/cn/2019/N112018-00181.pdf

你真的明白人机交互与智能吗

姓名：韩宜真

学号：17020120095

转载自：https://mp.weixin.qq.com/s/FWYeiee3rk_Rajul-b4rdQ

【嵌牛导读】未来的人机交互将是多模式状态，与人工智能密不可分。

【嵌牛鼻子】智能人机交互人工智能

【嵌牛提问】当人和机器之间的边界逐渐模糊，人机交互的边界在哪里？未来人机交互会发展成什么样子？

【嵌牛正文】在2013年的电影《她》中，男主结束了恋爱长跑之后，爱上了一个电脑操作的系统女声，这个叫“萨曼莎”的姑娘不仅有着略带沙哑的迷人嗓音，并且幽默风趣。

就这样，他们成了无话不谈的朋友，甚至发展出一段“畸形”的恋情。

虽然电影是虚构的，但这也恰恰证明了，未来以用户为中心的交互模式不会仅仅停留在操作方便等基础方面，对于更好地识别用户表达意图与情感等方面，都将取得重大突破。

问题来了，当人和机器之间的边界逐渐模糊，人机交互的边界在哪里？未来人机交互会发展成什么样子？

在AITime第七期的辩论中，清华大学的史元春、中科院软件所的田丰、中科院计算所的陈益强、小小牛科技创意公司的CEO曹翔就一起论道了人机交互与智能的相关问题。

视觉化处理是关键

1945年，在电子计算机尚未“出世”时，范内瓦·布什就发表了题为“AsWeMayThink”的文章，形象描述了未来个人电脑——一种被称为MEMEX的机器，阐释了直接交互、超链接、网络存储等概念。

1960年，约瑟夫·利克莱德提出“人机共生”的思想，并在布什的领导下通过美国国家科技计划大力支持了人机共生理念下的图形与可视化、虚拟对象操控、互联网络等研究项目，在他的主导下，个人电脑、互联网络的标志性关键技术在六七十年代逐次诞生了。

约瑟夫·立克立德领导的交互式计算不但研发了分式操作系统，而且直接引导了图形技术。

在范内瓦·布什、约瑟夫·利克莱德等先驱的推动下，在语言学、心理学、计算机科学的共同参与下，计算机从没有用户界面，到有了图形用户界面，开创了个人电脑以及互联网络等惠及整个社会的新产业。

现在手机无需利用鼠标，可以利用新的传感技术，包括AI技术，这些都在使得人们能够更多地感受周围世界，这也是人机交互的一部分。

未来，在新的传感和多媒体技术的共同支持下，机器将可以通过感知和数据处理技术来理解我们，来理解周围的环境，实现更自然、更智能的人机交互。

人机互动的研究领域呈多样化

曹翔介绍道，他现在的工作可以说是“现实版神笔马良”，用一张普通的纸和一个普通的画笔作画之后，用手机采集，瞬间就能转化生成三维动画。通过技术把创作的门坎降低，让普通人能够表达自己的创意是研究的初衷。

到目前为止还是普适计算的时代，未来人机交互会是多模态的，可以用键盘、语音，也可以用手势、表情、唇动等。他首先介绍了基于多通道或多模态感知理论的手语识别，原因有二，其一是因为姿势语言太多太泛，没有清晰的目标边界，其二是因为希望技术能服务于残障人士的日常交流。

第二个工作也和多模态相关，人机交互的终极目标是希望人机交互和人人交互一样。目前通过多模态，包括知识性感知，让机器获知人目前的状态，继而再进行下一步行为。未来可以利用可穿戴设备，对人的生理和心理的境况进行推断，然后进行交互。

陈益强也认为，未来的人机交互模式会是多模态的。围绕“多模态”设想，他提到了目前工作。一个是基于多通道或多模态感知理论的手语识别，将面部识别、手势动作识别和手语识别相融合，用以提高手语识别精度。二是通过多模态手段，使机器人获知人类当前状态。

田丰主要关注面向教育和医疗的人机交互的研究，他分享了再输入技术和相关理论方面的研究成果。由于输入不可避免地存在不精确性，希望用智能化的方法进行改善和帮助。

运动目标的选择是人机交互里非常重要的任务，玩游戏的时候就知道，相对静止来说运动目标的选中更难，怎样来提高选中的效率，同时去理解用户选择目标的能力。他们首先做了大量的用户研究，产生了针对不同速度和尺寸的物体在运动过程的落点分布，建立出模型，计算出用户选中物体的概率。这个模型不仅可以分析正常人，对帕金森病人等也可以用做辅助诊断。

值得一提的是，田丰带领团队研发的笔式电子教学系统获得了国家科技进步二等奖，并与协和医院共同取得了国家卫健委颁发的医疗健康人工智能应用落地30最佳案例的荣誉。

史元春介绍道，在使用手机软键盘时，26个字母挤在狭窄的输入界面里，再配上胖乎乎的手指，点错的经历太多了。这是触屏这种自然交互界面上典型的难题：胖手指难题。

基于研究工作，他们提出了基于贝叶斯推理的自然用户意图理解框架，建模用户行为特征，在模糊的输入信号上推测用户的真实意图。你点的不准没关系，算法可以猜得准。利用这项技术，史元春团队已经研究实现了手机、平板、头盔、电视等一系列接口上的输入法，输入准确度大幅度提高，且几乎不需要视觉瞄准，进而还能支持盲人用户准确实现软键盘输入。

未来的接口也会延伸感知人的操控行为，史教授正在研制的手机前置摄像头上就能：“感知到人手在界面上的变化后，我们就能以此做出新的‘输入法’。”

比如手握手机的任意边框或位置，就可以输入信息、访问界面，甚至和桌子的交互，也能变成对手机的操作。”

人机交互离不开人工智能

针对交互界面的构建是否存在计算模型的问题，田丰指出，传统上存在计算模型，而针对自然人交互，现在还没有相应的理论计算模型，但是应该朝着这个方向努力。

史元春教授同意以上观点，并指出定量评估的方法虽有，但很不充分。不过借助相应的传感技术，定量评估的原理和技术都在不断拓展，这从红外反射监测血流、血压参数、情绪变化等一系列应用上就可以看出。

以后的计算终端是多种多样的，适配的场景和任务也是不一样的，所以完全统一的大而全的模型非常难以建立，但是在特定任务上，技术背后的科学原理一定是有计算模型的，研究者们都应该去努力探索。

此外，定量评估的方法理论上是存在的，但现在很难说是好方法，因为界面在扩展，相应的实现技术、原理和评价技术也都在做扩展和变化。

曹翔也指出，因为人机交互的任务多样，很难去界定效率，更多是用主观感受衡量。从大方向上讲，一定是需要定量数据的，人工智能需要数据，而人机交互离不开人工智能。

针对建模的机制和限制，曹翔指出，具有明确任务的工作建模相对容易，因为目标很清晰，但是体验性的、娱乐性的、沟通性的工作比较难用计算的方式建模，因为其中夹杂着大量非简单人机交互的内容，比如人与人之间的互动等。

用大数据的方式对情绪的预测更有效果，本身人类对情绪化的东西也没有细分到小单元。反过来说，大数据分析或人工智能分析，能在没有用明确的细分模型的情况下做出预测，恰恰能解决非标准性任务。但如果是利用大数据解决问题，建立的可能是一个通用的模型，涉及到个人也会一些差别。

陈益强认为，人机交互要做得好，就一定要做到个性化，也就一定会用到智能方法。从交互来说，最初键盘是确定性交互，鼠标是属于感知层次。往智能上走，语音识别、手势识别这部分在感知以外加入了知识性学习。到第三部分，即情感智能，在执行前还需要加上知识，或者说认知。这也与人脑的三个部分，即中枢神经、小脑和大脑相对应。

智能和人机交互一样，也是按人也分层次，人机交互我们从传统到智能也分层次，可以把它理解为消除不确定性。越往上走，不确定性越大，尤其对意图理解，但是我们怎么去消除它，是人机交互上应用的一个探讨。

人机交互和人工智能协同共进

人工智能和人机交互，都有“人”这个字，对于二者的关系，史元春首先指出，这是中文说法，英文没有这样的词，但二者的共性在于都是很早很明确地谈到人机关系。

史元春教授认为，人机交互应该让机器更好的适应人，适应人的本性，适应人的操控能力、感知能力和认知能力。从“人”的研究内容上来说，人机交互与人工智能有差异，但出发点是一致的，即“人机共生”。

目前看，人工智能的研究更多的体现在人的识别、语言的表达等数据密集型任务上的处理方法，人机交互的研究更偏重于对人的主动交互行为和感知能力的建模、传感和建立适应的接口技术，人机关系必定向着共生的方向发展，这些研究内容和方法会相互影响和适应，交叠的研究内容会越来越多。

“做人工智能最后要接触人机交互，做人机交互最后也要接触人工智能。”

田丰提到中国科学上有一篇观点性的论文，他指出，人机交互和人工智能在未来的趋势会从交替沉浮走向协同共进。国家人工智能发展规划里一个核心研究点是人机协同，人机协同也是人机交互未来的方向。从人工智能角度讲，自动驾驶等也讲人机协同，其实是殊途同归的。

曹翔指出，人工智能和人机交互的研究价值观、出发点会略有不同。人工智能根本上讲，终极目标是让机器能做所有人能做的事情，人机交互则是指人和机器的合作，两者不矛盾，但是要看情境。

针对人机交互研究对AI的贡献，他指出，首先必须承认AI对人机交互研究的贡献。从大趋势上讲，机器学习中大量的人工标注数据就是人机交互的过程。进一步讲，AI的一个挑战在于可解释AI，最终担心的是可不可被信任，解释的原因是希望能够放心地使用。

某种意义上讲也许解决AI可信任的问题，在于创造一种方式，让人和AI的系统在一个互动过程中慢慢通过衡量判断，可能这个恰恰是人机交互帮助解决所谓AI可解释问题的方法。

对于智能人机交互的畅想，史元春指出，未来计算机的形态会变化，甚至可能不存在了，但计算机技术会持续为我们服务，成为人机共生的一部分，交互接口、交互任务会有很大的变化，但会更自然，更智能。

她把智能人机交互集中分为三类，一是手势，然后是语音，还有可穿戴设备，包括手环、头盔。在这三类上看到了很多新技术和新产品，但都还没有成为主流，也就是说，都存在一定的问题。

比如语音交互，不光是识别率没有达到百分之百，同时语音表达的带宽和表达的数据类型还不完整，和空间有关的数据效率低、没有精度。此外，还有打扰、隐私等，都有很大的限定条件，穿戴更是这样。

陈益强举例穿戴设备可以附着于衣服和鞋子，人机交互最终将实现人机共生。并且，在材料、技术的进步下，能够完全理解人类自然行为的意图，甚至帮助解决人口老龄化、阿尔茨海默病等。

曹翔根据自己目前的研究内容，指出，要通过技术把每个人的创造力充分发挥出来，创造力在未来会成为生存和工作所不可或缺的一部分。

未来在输出上或许能获得更多体验，比如把挖掘出更多感官体验，不只是视觉和听觉领域，甚至创造一个幻想的世界，这是十分有趣的。

田丰称，他对于如何通过人机交互的研究推动产业发展更为关心，相关人口老龄化问题已经与协和医院进行了深入合作，通过对老年人的动作进行解读，提供量化的辅助诊断。

针对人机交互人才的培养，史元春指出，工业界是有需求的，但是学术界还很迷茫。有博士生毕业后在工业界无法找到与专业十分匹配的职位，由于工业界的进步会促使学术界对人才培养建立一套科学的方法。

史元春教授提到：“我们培养的人才应该能够发现交互难题，并且能通过科学的方法来解决这个问题。”

曹翔指出，交互设计师、用户研究员等对口培养的专业，不难找工作；难找工作的是把人机交互作为一个研究领域去学习的学生，因为现有的一个萝卜一个坑的职业体系，并不太适合跨学科的人才，但创业特别需要这样的人。

科学网—人机交互与人工智能：从交替浮沉到协同共进 人机交互和人工智能的区别是什么意思啊