人工智能对阅读场景的重塑
(一)人工智能的技术逻辑与阅读
人工智能自诞生之日起,便有诸多来自不同学科的学者对其进行定义,但始终未能达成统一。从学科史层面看,人工智能是一门综合性边缘学科,涉及哲学、数学、经济学、神经科学、心理学、计算机工程、控制论、语言学等多个领域,[5]这种交叉与综合也解释了为何其定义莫衷一是。虽然从不同学科和角度审视,人工智能呈现出不同的面貌,但无论如何,作为一种媒介技术的人工智能,大致遵循着技术叠加和迭代的基本逻辑。人工智能的技术叠加,是其发展和进步的内在属性,是在人类智能机器化的技术理念和取向上,不断囊括、运用、叠加新的技术手段,提升机器智能程度,互联网、大数据、云计算、声像识别、机器学习等技术的叠加,使人工智能达到今天的程度;它的技术迭代,是发展呈现的现实状态,如微软的人工智能机器人“小冰”经过不断的技术迭代,目前已发展至第七代,并将继续更新。新技术取代旧技术,达到更高的智能化程度。人工智能的技术逻辑决定了在考察其对阅读场景的变革时,要兼顾技术累进、当下发展和未来走向三个维度。
具体到与阅读活动关联的人工智能,现阶段可大致划分为三种:自然语言处理,包括图形、图像,语言、语音、翻译、写作等;机器学习和深度学习,即模拟人的学习行为,获取知识和技能;知识表示、获取、推理和知识图谱。上述三种分布在信息输入、处理、输出的不同阶段,塑造出完成特定目标的人工智能——弱人工智能,和能够自主推理和计划学习的人工智能——强人工智能。目前人工智能有三个主要的发展方向:运算智能,即能存会算,快速计算和记忆存储;感知智能,即视觉、听觉、触觉等感知能力,让机械能听会说,能看会认;认知智能,即能理解会思考,人工智能可以进行自然交互和智能学习。人类阅读是一项复杂的活动,要讨论人工智能技术如何参与和变革阅读场景,首先需要明确阅读场景的构成。
(二)人工智能下阅读场景的构成
关于场景这个概念,可以追溯至戈夫曼1959年的《日常生活中的自我呈现》一书,在该书中他提出“情景”概念,指出对情景进行定义是人参与到社会互动中的第一步,“个体在他们面前出现时会造成一种情景定义”[6],人的行为很大程度上取得于这种情境定义。随着媒介技术的发展,梅罗维茨在1985年出版的《消失的地域——电子媒介对社会行为的影响》一书中,对数字技术构建的社会场景进行了阐释和分析,指出新技术造就的新媒介,构建了人们日常生活的新场景。之后又有诸多学者参与这一话题的讨论,并逐步聚焦于技术、媒介、社会、人等因素。如罗伯特·斯考伯和谢尔·伊斯雷尔在2014年的专著《即将到来的场景时代》中指出与场景时代相关的五个要素(场景五力):大数据、移动设备、社交媒体、传感器、定位系统,[7]明晰了目前影响和建构场景的五种主要技术和媒介。彭兰在2015年3月发表的论文《场景:移动时代媒体的新要素》中指出,场景成为了继内容、形式、社交之后媒体的另一种核心要素,并进一步将场景划分为四个基本要素,即:空间与环境、实时状态、生活习惯、社交氛围。[8]通过对场景概念的简单回顾,可以看出人们的日常生活依赖场景,场景是现实环境、媒介环境和社会环境的交织。阅读作为人认知外界的重要方式之一,其变与不变,皆受到从上述社会、文化环境中形成的阅读场景的影响。
阅读场景从场景概念中衍生而来,简言之,阅读场景即阅读活动发生的特定环境。技术发展和媒介变革塑造着新的生活场景,也塑造着新的阅读场景。具体而言,人工智能技术的加入对以往的阅读场景进行了一定程度的分化和拓展。阅读面临的新场景,既包括时空要素,也包括读者的心理状态,既有外在的现实或虚拟环境,也有内在的情感或知识环境。归纳起来,新技术条件下的阅读场景主要包括以下四种:第一,时间场景,即阅读活动发生的时间维度,以及在特定时间维度上的阅读效果。第二,空间场景,即阅读活动发生的空间环境。媒介技术的发展将空间场景分化为现实空间场景和虚拟空间场景。第三,知识场景,即人们在进行阅读实践时面临的社会知识环境,包括社会知识的体量、结构、形态等。第四,心理场景,即人们在阅读时所处的社交环境、心理状态和情感需求,与阅读目的、阅读体验直接相关。阅读是满足人类情感需求的重要方式之一,如获得安慰、进行社交等,甚至有学者认为阅读具有治疗精神疾病的作用,故心理场景也是阅读场景的重要组成部分。人工智能对阅读场景的重塑,主要体现在这四种场景中。
二、场景重塑:人工智能与阅读场景变革
人工智能不仅影响了阅读场景的构成,更为重要的是对其中每一种场景进行的程度不同的重塑。对场景重塑的考察,以技术层面的发展现状和趋势为基础,遵循人工智能技术叠加与迭代的基本逻辑,既要在以往技术累进的基础上展开分析,又要特别关注人工智能取得的技术突破。
(一)时间场景:服务日常生活的场景知识库
时间场景中,互联网和智能终端的发展超越了时间对阅读的限制,使人可以在任何有阅读需求的情况下随时进行阅读。在此基础上,人工智能对阅读场景的改变,主要是通过场景知识库的建构,提高单位时间的阅读效率。所谓场景知识,是指在特定场景下具备有用性的知识。如日常购物中,需要比对同一种商品不同品牌的价格和质量时,能够帮助购买决策的有用信息。将场景知识从人类知识中明确划分出来,是由英国经济学家哈耶克做出的。他在1948年出版的《个人主义与经济秩序》的第四章《知识在社会中的应用》中指出,知识分为科学知识,即具有普通原则的知识,和“有关特定时间和地点的知识(即场景知识),它们在一般意义上甚至不可能称为科学知识”[9],但在应对日常生活时,其重要性超过了科学知识,特别是进入网络时代之后,场景知识的生产和消费都呈现出爆发的态势。虽然场景知识是根据时间和地点两个参照系提供的,但由于网络对地理空间的消解,现在的这种知识类型更偏向于时间。
随着人类发展和社会进步,积累了越来越多的场景知识,以不同的方式存储和传播。人们在需要用到场景知识时,就在这些场景知识库中搜索。然而这样的检索面临着两个隐患,其一,找到的知识与待解决的问题匹配度不高,有用性不足;其二,需要花费相当的时间排除信息噪音,增加了阅读的难度。人工智能技术的加入,优化了场景知识库。一方面,对知识进行有序组织,使其结构化、网络化、智能化,增强每个人的“独一无二”信息的质和量,让这个知识网络变成日常生活中的个人随身知识库。一方面,借助传感器、定位系统、大数据等技术,收集个人信息,介入到人的日常生活中,进行场景知识库与人的实时交互。这种交互实现了阅读对象主动提供信息,减少个人检索的工作;及时提供信息,做到人与信息的无缝对接;提供准确信息,消除了冗余信息对阅读效率的干扰。
(二)空间场景:虚实交互与人机交互
空间既是一个物理概念,也是一个哲学概念。仅就阅读空间而言,空间可分解出两层含义,其一是人们置身其中的物理环境,其二是读者感知到的外在环境。纸媒时代的阅读空间就是指三维物理空间,这一阶段阅读对空间场景的要求,是对光线、书籍的放置、环境的安静程度等的要求,故从前的阅读场所多是阅览室、图书馆、书房、卧室等。随着人工智能等技术的发展,空间场景逐渐分化,在物理空间之外,增加了一层感知物理空间。
媒介虚拟空间是一种典型的感知物理空间。从增强现实(AugmentedReality),到混合现实(MixedReality),再到虚拟现实(VirtualReality),都是借助技术,通过对人的多种感官的刺激,塑造出一种感知现实。这种“现实”或者是对当下现实的再现,如虚拟书店提供的虚拟场景,让那些对自身所处物理空间不满意的读者,得以位移到书店场景中,进行阅读和休闲。另一种虚实交互的感知现实,表现为VR/AR/MR出版物。如儿童读物《VR恐龙世界》(中央广播电视大学出版社,2017),是将恐龙的形象和周边的环境全部展现,借此传达恐龙的体型、样貌等特性,给小读者更加直观的、视觉冲击更强的阅读体验。
人工智能对感知现实的升级,除了更佳的技术体验,更重要的是交互性的提供。如果说缺少交互的AR/VR阅读在本质上只是将场景或内容进行多媒体、跨媒体呈现,那么以智能交互见长的人工智能技术则塑造出新的媒介场景和阅读方式。从麦克卢汉“冷媒介”和“热媒介”的观点看,虚拟现实的阅读场景提供的是一种“热”媒介,VR/AR图书压缩了读者的想象空间,降低了参与度,而交互性则起到“降温”的作用,激发读者的深度参与,实现媒介性质的反转。其次,融入交互性的阅读,其信息逻辑不再是单向的传—受,而是即时、频繁的互动。人机交互既可以把作者和书中的人物拉回阅读场景,与读者进行对话,如“小冰”对小说中人物的“赋生”,也使读者能够参与感知空间场景的建构,如互动小说。虚实交互和人机交互的空间场景拓展了创造性的尺度,一方面读者可以沉浸在场景中,投入最少的能动性,一方面也提供了深度参与的入口,通过互动在阅读中形成多样化的文本和场景。
(三)知识场景:去中心化与网状知识结构
如果说对时间场景和空间场景的变革多是建立在技术累进的基础上,人工智能只是进一步对其优化,那么知识场景的变革则是人工智能技术的突破。知识场景首先体现为知识的体量,最为直观的是出版物的增加。如古登堡印刷机之后,欧洲的书籍数量大幅增长。其次是知识的结构,如16世纪的百科全书按主题分类,主要类别与中世纪大学的十大学科相对应。[10]到了17世纪,从百科全书的组织中清晰地看到一场更为深刻的变革,即字母排序法的使用。[11]从按学科到按字母,呈现为两种不同的知识结构。
随着技术的发展,社会知识网络再次迎来变革。“人工智能是关于知识的学科——怎样表示知识以及怎样获得知识并使用知识的科学。”[12]这是美国斯坦福大学人工智能研究中心的尼尔逊教授给人工智能的定义,指出了人工智能在这场知识革命中举足轻重的作用。知识管理机构,如图书馆、档案馆、博物馆,和知识生产机构借助人工智能,通过知识表示,建立现有知识的绵密关联,建构知识图谱。知识的组织形式不再是纸质出版时期的中图分类法,也不只是数字出版时期的众多数据库,而逐渐呈现为去中心化和网状结构的知识图谱。去中心化是指知识不再以特定的点或轴线进行延伸,而是可以以任何一个点和轴线向外扩展,最终也就形成了关联一切的、网状结构的知识形态。
知识场景的变革,带来阅读的变化,它不仅决定阅读内容,也影响阅读方式。如从精读到泛读,其中一个重要的影响因素就是书籍数量的急剧增加。从公众的阅读到个人的阅读的转变,也可以从私人藏书和图书馆藏书量的增长上看出来。[13]人工智能提供的无所不包的网状知识结构对阅读的改变,集中体现在专业性阅读方面。如知识表示丰富了阅读方式,这在学术阅读中表现尤为突出。通过对知识的标注、分析、比较,生产出知识单位更为细小的学术出版物,使读者在海量的文献中,可以根据不同的阅读目的,选择深阅读、浅阅读、碎片化阅读、战略性阅读等多种方式。
(四)心理场景:智能捕捉与个性满足
德国接受美学对阅读和读者研究提供的诸多理论工具中,“期待视野”是其中重要的一个。该学派的代表人物之一姚斯(HansRobertJauss)把期待视野分为“生活的期待视野”和“文学的期待视野”。前者包括读者的政治、经济状况和地位、价值观和道德观、受教育水平、生活经历和经验以及个人性格、气质、兴趣、爱好等,后者则包括从过去阅读的文学作品中获得的经验和知识、对不同文学形式、风格和技巧的熟悉程度、艺术审美情趣和素养等。[14]由计算机智能阶段、感知智能阶段和认知智能阶段三个发展阶段组成的人工智能,目前的技术处于感知智能阶段,人工智能可以看懂听懂,并做出判断、采取行动,帮助人类完成看和听的相关工作。[15]借助大数据、算法技术、机器学习等,人工智能最终有望在控制成本的前提下,同时把握读者的“生活期待视野”和“文学期待视野”。将单个读者的面貌较为清晰地勾勒出来,使读者不再是面目模糊的群体,而成为独立鲜活的个体,奠定了构建贴合个性的心理场景的基础。
人工智能技术对心理场景的变革,得益于其对人类情感的捕捉和解构,具体体现在如下三个方面:其一,基于对人类情感、情绪的捕捉,满足读者的潜在阅读需求。阅读需求的其中一个特征就是潜在性,随着社会娱乐方式的多样化,人们很多时候沉迷于影视剧、网络等各种视听媒介,却意识不到自己真正需要的是阅读,体验不到阅读对缓解焦虑的作用。人工智能塑造的阅读场景,将根据对读者心理状态的评估提供阅读的入口,弥补潜在阅读需求。其二,打造阅读舒适区,满足个性化需求。人工智能在个性化方面有望通过情感捕捉、人机交互、深度学习,根据读者的性格、兴趣、脾气、秉性、经历、境遇,更加准确地判断读者的阅读期待,从阅读内容、阅读方式等不同方面,构建一个最大程度满足“期待视野”的阅读舒适区。其三,阅读中社交需求的满足。社会交往是人的内在需求,在阅读活动中,表现为与处于相同阅读场景下、阅读相同文本的读者的互动和交流。人工智能技术能够帮助更准确地找到兴趣部落,实现即时交流互动,借由更多的路径和通道取得连接。
三、阅读嬗变:强化的工具性与弱化的文化性
作为概念的阅读有着丰富的内涵和外延。其中较为微观的个体阅读活动可粗略地从三个层面审视:心理层面,阅读是一种心理活动和思维活动;技术层面,阅读是借助某种符号及其载体(媒介)进行的人类活动;文化层面,阅读是人类获取信息或知识融入社群文化的实践活动。无论外在技术环境和社会文化环境如何变化,上述三个层面在相当长的历史时期内,都是人类阅读活动的内核和本质所在。但这并不意味着阅读是固定不变的,恰恰相反,阅读始终经历着不断的嬗变。为了较为全面和系统地考察阅读实践的变与不变,有必要构建阅读研究的简单模型。
如图1所示,心理和技术层面的阅读造就了阅读的创造性;技术和文化层面的阅读造就了阅读的工具性;三者共同造就了阅读的社会性。回到上述人工智能建构的阅读场景,从阅读的创造性层面看,提供了创造性程度的多样化选择,既可以被动地沉浸其中,也可以深度参与;从阅读的工具性层面看,提高了获取非科学性知识和科学性知识的效率;从阅读的社会性层面看,满足了个性化的阅读需求。进一步考察新场景下的阅读,仍须从宏观层面思考。阅读作为一项复杂的社会文化实践活动,有着诸多面向。第一,是作为知识获取的阅读。阅读的工具性力量得到极大解放,知识获取变得更为便捷高效,阅读活动的展开只取决于阅读意愿、阅读能力等“人”的因素。服务日常生活的场景知识库的智能提供,大大提升了读者在实用性知识、信息获取上的效果和效率。知识场景中的知识表示和知识图谱,提高了获取专业性知识的效率。但获取信息和知识只是阅读的一种面向,除此之外阅读还具备或承担其他功能。如下所述,人工智能重塑的阅读场景对阅读其他功能的发挥,某种程度上说并未产生助力。
第二,作为思维训练的阅读。阅读从来都是一种创造性的活动,作为信息接收端的读者,正是通过阅读进行意义解构和重构。阅读是借助某种符号及其载体(媒介)进行的人类活动,思维与语言符号关系密切,思维作为对现实的一种反映,是不能赤裸裸地存在的,它必须以一定的语言形式作为载体,[16]故阅读是思维训练的主要方式之一。新场景下的阅读,弱化了阅读的思维训练功能。首先,人工智能的阅读场景,实现了人的知识储备的外化,读者不再需要记忆,在信息海洋中随时检索,或是等待信息“送上门来”,就能满足生活中的知识需求。这就意味着对知识宏观感知的缺失,从而产生宏观思维能力不足的结果。其次,人工智能提供的服务型阅读场景,改变了读者与阅读对象之间的主被动关系,如果读者一味采取沉浸式的阅读方式,将丧失思维训练的机会,被动的接受取代主动的求索,从而造成独立思维能力的弱化。
第三,作为文化仪式的阅读。阅读是人类获取信息和知识融入社群文化的实践活动,故阅读具备文化仪式性。仪式是经由历史选择和社群约定俗成的规范性行为活动,一般由确定的时间、固定的场所、规定的程序、稳定的人群和特定的氛围组成,通过象征性的符号公开地表达集体生活的情感态度和价值观念。[17]如圣经的阅读,即是通过这一活动本身感受和践行信仰。阅读场景和方式的改变,弱化了阅读的文化仪式功能。人工智能提供的个性化阅读在时间、场所、程序、氛围等方面,都与集体越来越疏离,个性的彰显与共性的消散,消解了阅读的仪式性。其次,新媒介环境和技术力量造成的阅读泛化,导致阅读以越来越多样的面貌出现,其中既有弱仪式感的工具性阅读,也有强仪式感的文化性阅读,前者随时随地、读完即毕,后者对时间、空间、程序等都有要求。人工智能技术塑造的阅读场景,一方面压缩了强仪式性阅读的空间,一方面无意中将弱仪式性阅读的阅读习惯和方式,带入了强仪式性阅读,从而消解了阅读的仪式性。当更多的阅读以随时随地的面貌出现,阅读本身也变得随意随便,既不再是焚香沐浴、毕恭毕敬,也不再是专一沉醉,而更多的是对实用性知识的追求和满足,一旦目的达成,阅读也宣告结束。阅读越来越成为途径,而不是目的,也更加不存在阅读过程中的文化体验。
第四,作为固化共识的阅读。共识的达成不仅建立在阅读相同文本的基础上,还建立在阅读方式和阅读场景中。人工智能重塑的阅读场景,存在着消解重复性阅读的可能性。贴合个性的心理场景提供的个性化阅读,一定程度上减少了大众阅读的相同文本的数量。若可重复的纸质阅读被数字化的一次性阅读取代,大众阅读被个性化阅读取代,人们不再阅读相同的内容,则会造成思想更加多元,在网络上形成舆论变得很容易,固化支撑人类社会的核心共识遭到某种程度松动的结果。人工智能提供的新场景下的阅读,一方面朝着封闭的个人知识库和个性阅读发展,一方面导向充满链接的无限知识库和多元阅读,但二者似乎都没有给共识的达成保留足够的空间,故阅读的固化共识功能也在被削减。
技术具备自身的属性,媒介技术并非内容的容器,而有其自身的性格和逻辑。正如法国学者德布雷(RégisDebray)所说,“技术客体开始享有自己的生命”[18]。根据加拿大学者哈罗德·伊尼斯(HaroldAdamsInnis)的理
论,每一种媒介都或偏向时间,或偏向空间。人工智能技术超越了时间和空间的限制,并拓展出新的维度,比如“人”的维度。这一开拓改变了阅读中人的位置和功能,改变了人与阅读对象之间的关系。其次,技术并不能单独对阅读产生作用力,而往往与资本、权力、文化、意识形态等共同发挥作用。如作为固化共识的阅读,虽然技术的发展使社会共识的获得较之前难度有所增大,但权力和资本等因素必然会介入其中,寻求新的建构共识的手段和方法。
另外,人工智能对阅读场景的重塑,并非仅在时空场景、知识场景和心理场景方面,随着技术进步,会有更多的场景加入进来,共同改变人类阅读的面貌。同时,人工智能对阅读的改变,不仅是在阅读场景层面,更是在阅读对象,即文本层面,并且两者常常同时发生作用。纸质出版物“千篇一律”,不易改变,便于流传,数字化带来的书籍实体性的破坏,第一次打破了阅读的传统根基,文本及其承载方式使知识流动起来,易于改变,易于流传。那么人工智能技术的加入,又会对文本产生哪些影响?新技术条件下的文本变迁与阅读演进,同样是值得持续关注和研究的问题。
(作者单位:武汉大学信息管理学院)
[1]丁悦华.人工智能提升阅读体验[N].国际出版周报,2018-08-06(014).
[2]严志永.人工智能提升图书阅读效率策略选择研究[J].出版广角,2018(1):17.
[3]吴铃林.人工智能:图书馆数字阅读推广的新型助力[J].山西档案,2018(9):74.
[4]高彧军.人工智能阅读与图书馆阅读推广[J].图书与情报,2018(2):125.
[5]罗素,诺位格.人工智能:一种现代的方法(3版)[M].殷建平,等,译.北京:清华大学出版社,2013:6-16.
[6]欧文·戈夫曼.日程生活中的自我呈现[M].冯钢,译.北京:北京大学出版社,2008:7.
[7]罗伯特·斯考伯,谢尔·伊斯雷尔.即将到来的场景时代[M].赵乾坤,等,译.北京:北京联合出版公司,2014:11.
[8]彭兰.场景:移动时代的媒体新要素[J].新闻记者,2015(3):20.
[9]邓正来.自由与秩序——哈耶克社会理论的研究[M].南昌:江西教育出版社,1998:97.
[10][11]彼得·伯克.知识社会史(上卷):从古登堡到狄德罗[M].陈志宏,王婉旎,译.杭州:浙江大学出版社,2016:100,117.
[12]周海霞.探索机器人的未来世界[M].长春:吉林出版集团有限责任公司,2014:143.
[13]戴维·芬克尔斯坦,阿利斯泰尔·麦克利里.书史导论[M].何朝晖,译.北京:商务印书馆,2012:172.
[14]汝信.社会科学新辞典[M].重庆:重庆出版社,1988:671.
[15]王运武,张尧,彭梓涵.教育人工智能:让未来的教育真正拥有“智慧”[J].中国医学教育技术,2018(4):117-125.
[16]华东师范大学逻辑学教研室.形式逻辑[M].上海:华东师范大学出版社,2016:2.
[17]高丽华,吕清远.数字化阅读的仪式反思与建构[J].出版发行研究,2017(3):73.
[18]雷吉斯·德布雷.普通媒介学教程[M].陈卫星,王杨,译.北京:清华大学出版社,2014:81.
返回搜狐,查看更多
6大人工智能应用关键技术,终于有人讲明白了
导读:我国《人工智能标准化白皮书(2018年)》中也给出了人工智能的定义:“人工智能是利用数字计算机或者由数字计算机控制的机器,模拟、延伸和扩展人类的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术和应用系统。”
人工智能的核心思想在于构造智能的人工系统。人工智能是一项知识工程,利用机器模仿人类完成一系列的动作。根据是否能够实现理解、思考、推理、解决问题等高级行为。
在未来,人工智能应用主要会体现如下几大核心技术特点。
作者:达观数据
来源:大数据DT(ID:hzdashuju)
01机器人流程自动化(RoboticProcessAutomation,RPA)
RPA(RoboticProcessAutomation,机器人流程自动化)的定义:通过特定的、可模拟人类在计算机界面上进行操作的技术,按规则自动执行相应的流程任务,代替或辅助人类完成相关的计算机操作。
与大家通常所认为的具备机械实体的“机器人”不同,RPA本质上是一种能按特定指令完成工作的软件,这种软件安装在个人计算机或大型服务器上,通过模拟键盘、鼠标等人工操作来实现办公操作的自动化。
▲图1-1RPA是未来办公创新和发展的趋势
RPA也被形象地称为数字化劳动力(DigitalLabor),是因为其综合运用了大数据、人工智能、云计算等技术,通过操纵用户图形界面(GUI)中的元素,模拟并增强人与计算机的交互过程,从而能够辅助执行以往只有人类才能完成的工作,或者作为人类高强度工作的劳动力补充。
自2015年以来,人工智能技术和RPA在同一时间大幅度发展和进步,恰好相辅相成,汇合在了一起。自然而然地,RPA和AI两者的结合运用,带来了一股非常独特的智能化应用的发展潮流,我们称之为智能RPA技术,或者IPA技术(IntelligentProcessingAutomation),即智能流程自动化技术(如图1-2所示)。
▲图1-2智能RPA的构成:RPA+AI=IPA
换句话说就是,RPA是基础,需要与其他技术手段整合在一起,方能实现IPA及其优势。
商业社会对流程自动化的功能的期望将与日俱增,将机器学习等AI技术运用到RPA中,将人工智能功能集成到产品套件中,以提供更多类型的自动化功能,已经成为未来RPA发展的主流趋势。
02光学字符识别(OpticalCharacterRecognition,OCR)
OCR技术是指利用电子设备(例如扫描仪或数码相机)将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。通俗地说就是,对文本资料进行扫描,然后对图像文件进行分析处理,以获取文字及版面信息的技术。
OCR技术一般可分为如图3-1所示的5个阶段。
▲图3-1OCR技术的5个阶段
下面具体说明OCR的识别流程。
1.图像处理
针对图像的成像问题进行修正。常见的图像预处理过程包括:几何变换(透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正、二值化处理等。
2.文字检测
检测文本所在位置、范围及其布局,通常还包括版面分析和文字行检测等。文字检测解决的主要问题是哪里有文字,文字的范围有多大。
文字检测采用的处理算法一般包括:Faster-RCNN、Mask-RCNN、FPN、PANet、Unet、IoUNet、YOLO、SSD。
3.文字识别
在文本检测的基础上,对文本内容进行识别,将图像中的文本信息转化为计算机可识别和处理的文本信息。文字识别主要解决的问题是每个文字是什么。
文字识别常采用的处理算法包括:CRNN、AttentionOCR、RNNLM、BERT。
4.文本抽取
从文字识别结果中抽取出需要的字段或要素。
文本抽取常采用的处理算法包括:CRF、HMM、HAN、DPCNN、BiLSTM+CRF、BERT+CRF、Regex。
5.输出
输出最终的文字识别结果或者文本抽取结果。
03机器学习/大数据分析
机器学习/大数据分析是一种用于设计复杂模型和算法并以此实现预测功能的方法,即计算机有能力去学习,而不是依靠预先编写的代码。它能够基于对现有结构化数据的观察,自行识别结构化数据中的模型,并以此来输出对未来结果的预测。
机器学习是一种通过“监督”和“无监督”学习来识别结构化数据中的模式(例如日常性能数据)的算法。监督算法是指在根据自己的输入做出预测之前,会从输入和输出的结构化数据集来进行学习。无监督算法是指观察结构化数据,并对已识别的模式提供相关见解。
机器学习和高级分析可能会改变保险公司的游戏规则,例如,在提高合规性、降低成本结构,以及从新的见解中获得竞争优势。高级分析已经在领先的人力资源部门中得到了广泛应用,主要用于确定和评估领导者和管理者的核心品质,以便更好地预测行为、规划职业发展道路和下一任领导岗位归属。
04自然语言生成(NaturalLanguageGeneration,NLG)
计算机具有与人一样的表达能力和写作能力,它遵循某种规则,将从数据中观察到的信息转换成高质量的自然语言文本。例如,自动识别会议邮件中的主题、数字地名、人名地址并生成行程表备忘录,或者识别出合同条款的关键内容并将摘要的重点生成列表。
关于自然语言生成及自然语言处理的详细介绍,请阅读《详解自然语言处理5大语义分析技术及14类应用(建议收藏)》
05智能工作流(SmartWorkflow)
智能工作流是一种用于流程管理的软件工具,其中集成了由人和机器共同执行的工作,允许用户实时启动和跟踪端到端流程的状态,以便于管理不同组之间的切换,包括机器人与人类用户之间的切换,同时还能提供瓶颈阶段的统计数据。
随着社会和科技的不断进步,各个领域都开始逐步朝着自动化、智能化的方向快速发展。工作流相关技术的研究也越来越受重视,并广泛地应用于制造业、软件开发、银行金融、生物医学等不同领域。
工作流不但能够自动化地处理相关的活动和任务,减少人机交互处理过程中带来的潜在错误,而且能够精确化每一个处理步骤,最大化地提高生成效率,并且将工作流应用到动态、可变且灵活的应用场景当中。
近年来,在大数据、人工智能的背景下,工作流中的业务流程日趋复杂,所面临的环境和数据也日趋复杂,由需求分析引起的业务过程重新建模或由维护升级引起的过程模式变更和改进也变得越来越频繁。
在这种动态多变的复杂环境下,如何快速识别出任务,然后快速高效并有针对性地处理工作流问题,已成为目前工作流任务研究的关键问题。
RPA软件机器人在工作过程中,也会遇到很多类似的情况。工作流的复杂多变,会导致RPA作业流程的复杂多变,使其无法做到自适应,这将会大大影响RPA软件机器人的作业效率。
因此,需要通过智能工作流的技术,实现动态地调整RPA里的任务设定,以及RPA业务流程的自动变更和自动升级,在智能工作流的指导下实现自适应作业模式。
实现智能工作流的方法有很多,比如,美国J.H.Holland教授提出的基于遗传算法的工作流调度,PandeyS等提出的基于粒子群优化算法的启发式算法(PSO)可用于不同资源的智能调度。除此之外,还有很多基于自然界和仿生学的智能算法,比如,混合蛙跳算法、布谷鸟搜索算法、蝙蝠算法、人工蜂群算法等。
目前比较常见的方法是实现一种基于智能规划的工作流处理模式,该模式不再是单纯地将不同的活动当作对彼此没有影响的单独事件,而是有针对性地考虑多个事件的共同影响。
该模式充分考虑了工作流和智能规划之间的相似之处,通过智能规划推导出不同工作流任务之间的内在逻辑关系,并从其他的渠道和外部信息中充分挖掘潜在的关系。
逐步改进传统工作流中的问题,使用全新的智能规划的手段,从表面动作中挖掘出潜在的信息,过滤噪声数据,进而实现流程的自动修正,最后,通过前面得出的结论,有针对性地修改之前的RPA作业流程,实现自适应性的作业模式和作业过程。
06认知智能体(CognitiveAgent)
认知智能体是一种结合了机器学习和自然语言生成的技术,并在此基础上加入情感检测功能以做出判断和分析,使其能够执行任务,交流沟通,从数据集中学习,甚至根据情感检测结果作出决策。换句话说,机器会像人一样产生“情感共鸣、精神共振”,真正成为一个完全虚拟的劳动力(或者智能体)。
在客服领域,英国某汽车保险公司通过使用认知智能体技术,将客户转化率提高了22%,验证错误率降低了40%,整体投资回报率达到了330%。
当然,德勤、安永等咨询公司也坦然表示,就现阶段许多企业的流程管理与系统的基础能力来看,仍存在着大量的基础建设工作有待开展。而打造智能流程自动化所需的部分核心技术(例如认知智能体等)也还停留在雏形阶段。
智能包含三个方面,分别是计算智能、感知智能和认知智能。
在计算智能方面,计算机的速度早已远远超过人工的效率。
在感知智能方面,随着OCR、NLP等技术的发展,目前也已经能够实现很多的效果。
但是在认知智能方面,即使在某些特定领域,自然语言的处理也已经可以得到比人工更好的成绩,但是在某些领域,特别是知识理解、知识推理、知识判断等方面,还有很多需要逐步积累、逐步完善的地方。
按照机器能否产生自我认知和机器人的适用范围,人工智能分为弱人工智能和强人工智能,其中弱人工智能里的机器没有自我意识,不具备真正的推理和独立解决问题的能力,通常只适用于解决特定条件下的某种问题。当前人工智能的研究主要在弱人工智能领域。
而在强人工智能方面,机器具有一定的自我意识,能够通过学习拓展功能。对于当前不具备的功能或者当前不了解的知识,能通过自行学习获得。
当前条件下,全面的强人工智能还面临技术能力、社会伦理等多方面的挑战,但是在某些领域的特定场景下,具备认知智能能力和学习能力的人工智能软件,不仅能够优化作业流程、快速响应、覆盖更多不同的情况,同时还能够最大限度地避免技术风险和应用风险,是一个非常有价值的研究方向。
认知智能有很多种定义,其中,复旦大学肖仰华教授曾经提到过,所谓让机器具备认知智能是指让机器能够像人一样思考,而这种思考能力具体体现在如下几个方面。
第一,机器具备能够理解数据、理解语言进而理解现实世界的能力。
第二,机器具备能够解释数据、解释过程进而解释现象的能力。
第三,机器具备推理、规划等一系列人类所独有的认知能力,也就是说认知智能需要解决推理、规划、联想、创作等一系列复杂任务。
智能体是指驻留在某一环境下,能够持续自主地发挥作用,具备驻留性、反应性、社会性、主动性特征的计算实体。根据著名人工智能学者,美国斯坦福大学Hayes-Roth教授的理论“智能体能够持续执行三项功能:感知环境中的动态条件、执行动作影响环境、进行推理以解释感知信息、求解问题和决定动作”。
从前面的定义我们可以看出,认知智能体能够感知到环境中的动态条件,然后根据这些条件执行相应的动作来影响现有的环境,同时其还能够用推理来解释感知信息,求解相关问题,决定后续动作。
将认知智能体与RPA相结合,我们能够得到一个具备认知智能的机器人,它可以根据所涉及的应用系统和其他环境的变化动态感知下一步需要做的事情,同时执行相应的动作来影响对应的环境信息,实现智能录入、智能监控、智能文档处理和辅助判定。
与此同时,认知智能体通过RPA技术在处理业务的同时,还能够学习到相关的经验和知识,逐步掌握识别重点的能力。
认知智能体的研究包含了多种不同的方法,近年来,随着分布式人工智能、信息科学和网络科学的不断发展,面向动态环境下的分布式协同决策已经成为认知智能体的一个重要的研究方式。这种方式在以多无人机系统、多机器人系统为代表的典型无中心式多智能体系统中得到了广泛的应用。
与此同时,受限于自身设计,智能体对所在环境和系统常呈现出信息的部分可观测特征,而有限的智能体之间的交互和外部的约束也使得获得全局信息需要付出极高的代价。
同时,无中心式的多智能体系统在应用中呈现出了与社会网络相类似的自组结构和相应的复杂网络特征,即网络中单个智能体通常仅能连接/交互所在局部网络中的小部分智能体,传统的集中式协同模型则不再适用。
此外,类似于社会网络中人与人之间的有限信息交换便可大大提升个体的决策效率,同样的方法能否应用到相应的研究当中,也处于不断的尝试过程中。
关于作者:达观数据,中国智能RPA领域的龙头企业,独立开发了全套“RPA+AI”系统,拥有核心知识产权。达观智能RPA产品是业界不依赖微软底层开发框架、未使用第三方开源框架的RPA产品。
本文摘编自《智能RPA实战》,经出版方授权发布。
延伸阅读《智能RPA实战》
点击上图了解及购买
转载请联系微信:DoctorData
推荐语:这是一部从实战角度讲解“AI+RPA”如何为企业数字化转型赋能的著作,从基础知识、平台构成、相关技术、建设指南、项目实施、落地方法论、案例分析、发展趋势8个维度对智能RPA做了系统解读,为企业认知和实践智能RPA提供全面指导。
划重点????
干货直达????
西安交大送大一新生这本书,你读过吗?12本有趣有料的科普书盘点
终于有人把AI、BI、大数据、数据科学讲明白了
监督学习、非监督学习、强化学习都是什么?终于有人讲明白了
一条SQL引发的“血案”:与SQL优化相关的4个案例
更多精彩????
在公众号对话框输入以下关键词
查看更多优质内容!
PPT | 读书 | 书单 | 硬核 | 干货 | 讲明白 | 神操作
大数据 | 云计算 | 数据库 | Python | 可视化
AI | 人工智能 | 机器学习 | 深度学习 | NLP
5G | 中台 | 用户画像 | 1024 | 数学 | 算法 | 数字孪生
据统计,99%的大咖都完成了这个神操作
????
人工智能技术的主要应用及基本原理
1:什么是人工智能?
人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,是认知、决策、反馈的过程。人工智主能它是用来研究使计算机来模拟人的某些思维过程和智能行为(如学习,推理,思考,规划等)的学科,主要包括计算机实现智能的原理,制造类似的人脑智能的计算机,使计算机能实现更高层次的应用。
2:人工智能的研究价值
列如繁重的科学和工程计算本来是要人脑来承担的,如今计算机不但能完成这种计算,而且能比人脑做得更好、更快、更准确,因此当代人不再把这种计算看作是“需要人工智能才能完成的复杂任务”,可见复杂工作的定义是随着时代的发展和技术的进步而变化的,人工智能这门学科的具体目标自然也是随着时代的变化而发展的。它一方面不断获得新的发展,另一方面又转向更有意义的,更加困难的目标。
3:人工智能的细分领域有哪些?
人工智能技术应用的细分领域:深度学习、计算机视觉、智能机器人、虚拟个人助理、自然语言处理—语音识别、自然语言处理—通用、实时语音翻译、情境感知计算、手势控制、视觉内容自动识别、推荐引擎等。
(1):深度学习
深度学习作为人工智能领域的一个应用分支,不管是从市面上公司的数量还是投资人投资喜好的角度来说,都是一重要应用领域。说到深度学习,大家第一个想到的肯定是AlphaGo,通过一次又一次的学习、更新算法,最终在人机大战中打败围棋大师李世石。百度的机器人“小度”多次参加最强大脑的“人机大战”,并取得胜利,亦是深度学习的结果。
深度学习的技术原理:
1.构建一个网络并且随机初始化所有连接的权重; 2.将大量的数据情况输出到这个网络中; 3.网络处理这些动作并且进行学习; 4.如果这个动作符合指定的动作,将会增强权重,如果不符合,将会降低权重; 5.系统通过如上过程调整权重; 6.在成千上万次的学习之后,超过人类的表现;
(2):计算机视觉
计算机视觉是指计算机从图像中识别出物体、场景和活动的能力。计算机视觉有着广泛的细分应用,其中包括,医疗成像分析被用来提高疾病的预测、诊断和治疗;人脸识别被支付宝或者网上一些自助服务用来自动识别照片里的人物。同时在安防及监控领域,也有很多的应用……
计算机视觉的技术原理:
计算机视觉技术运用由图像处理操作及其他技术所组成的序列来将图像分析任务分解为便于管理的小块任务。比如,一些技术能够从图像中检测到物体的边缘及纹理。分类技术可被用作确定识别到的特征是否能够代表系统已知的一类物体。
(3)语音识别:
语音识别技术最通俗易懂的讲法就是语音转化为文字,并对其进行识别认知和处理。语音识别的主要应用包括医疗听写、语音书写、电脑系统声控、电话客服等。
语音识别技术原理:
1、对声音进行处理,使用移动窗函数对声音进行分帧; 2、声音被分帧后,变为很多波形,需要将波形做声学体征提取,变为状态; 3、特征提起之后,声音就变成了一个N行、N列的矩阵。然后通过音素组合成单词;
(4)引擎推荐:
不知道大家现在上网有没有这样的体验,那就是网站会根据你之前浏览过的页面、搜索过的关键字推送给你一些相关的网站内容。这其实就是引擎推荐技术的一种表现。Google为什么会做免费搜索引擎,目的就是为了搜集大量的自然搜索数据,丰富他的大数据数据库,为后面的人工智能数据库做准备。
引擎推荐技术原理:
推荐引擎是基于用户的行为、属性(用户浏览网站产生的数据),通过算法分析和处理,主动发现用户当前或潜在需求,并主动推送信息给用户的信息网络。快速推荐给用户信息,提高浏览效率和转化率。
人工智能导论第一次作业(人工智能有哪些研究途径与方法它们的关系如何人工智能有哪些研究内容人工智能领域有哪些分支领域和研究方向现在人工智能有哪些学派它们的认知观是什么)
人工智能有哪些研究途径与方法?它们的关系如何?(1)研究途径与方法
“心理模拟、符号推演”心理学派、逻辑学派和符号主义的基于“心理模拟和符号推演”的人工智能研究。就是从人脑的宏观心理层面入手,以智能行为的心理模型为依据,将问题或知识表示成某种逻辑网络,采用符号推演的方法,模拟人脑的逻辑思维过程,实现人工智能。
“生理模拟、神经计算”“生理模拟、神经计算”就是从人脑的生理层面,即微观结构和工作机理入手,以智能行为的生理模型为依据,采用数值计算的方法,模拟脑神经网络的工作过程,实现人工智能。具体来讲,就是用人工神经网络作为信息和知识的载体,用称为神经计算的数值计算方法来实现网络的学习记忆联想识别和推理等功能。
“行为模拟、控制进化”“行为模拟、控制进化”是一种基于“感知—行为”模型的研究途径和方法,我们称其为行为模拟法。基于行为模拟法的人工智能研究,被称为行为主义、进化主义、控制理论学派。
“群体模拟、仿生计算”“群体模拟、仿生计算”就是模拟生物群落的群体智能行为,从而实现人工智能。其特点为可以直接付诸应用而解决工程问题和实际问题。
“博采广鉴、自然计算”“博采广鉴、自然计算”就是模仿或者借鉴自然界中某种机理而设计计算机模型,这种计算机模型一般具有自适应、自组织、自学习、自寻优能力的算法。
“着眼数据、统计建模”“着眼数据、统计建模”就是着眼于事物或问题的外在表现和关系,收集、采集、整理相关信息并做成样本数据,然后基于样本数据用统计学、概率论和其他数学理论和方法建立数学模型,并采用适当的算法和策略进行计算,以期从事物外在表现的样本数据中推测事物的内在模式或规律,并用之解决相关实际问题。
(2)关系
以上人工智能研究的六种方法和途径,它们各有所长,也有各自的局限性。所以,这些研究途径和方法并不能相互取代,而是并存和互补的关系。
人工智能有哪些研究内容?难题求解自动规划、调度与配置机器博弈机器翻译与机器写作机器定理证明自动程序设计智能控制智能管理智能决策智能通信智能预测智能仿真智能设计与制造智能车辆与智能交通智能诊断与治疗智能生物信息处理智能教育智能人—机接口模式识别智能机器人数据挖掘与知识发现计算机辅助创新计算机文艺创作人工智能领域有哪些分支领域和研究方向?a).从研究内容来看,人工智能可以分为搜索与求解、知识与推理、学习与发现等十大分支领域(它们构成了人工智能学科的总体架构)。
b).从研究途径和智能层次来看,人工智能可分为符号智能、计算智能、统计智能和交互智能等四大分支领域。
c).从所模拟的脑智能或脑功能来看,AI中有机器学习、机器感知、机器联想、机器推理、机器行为等分支领域。
d).从系统角度看,AI中有智能计算机系统和智能应用系统两大类。
e).从应用角度看,AI中有难题求解等数十个分支领域和研究方向。
f).从信息处理角度看,人工智能的研究涉及确定—确切性信息处理、不确定—确切性信息处理、确定—不确切性信息处理和不确定—不确切性信息处理等四个主题。
现在人工智能有哪些学派?它们的认知观是什么?目前人工智能的主要学派有下面三家:
(1) 符号主义,又称为逻辑主义、心理学派或计算机学派,其原理主要为物理符号系统(即符号操作系统)假设和有限合理性原理。
(2) 连接主义,又称为仿生学派或生理学派,其主要原理为神经网络及神经网络间的连接机制与学习算法。
(3) 行为主义,又称为进化主义或控制论学派,其原理为控制论及感知-动作型控制系统。
认识观
符号主义认为人工智能源于数理逻辑连接主义认为人工智能源于仿生学行为主义认为人工智能源于控制论5.未来人和机器的关系是什么?
在机器人行为准则被严格贯彻的情况下,机器人可以参与到人们的生活和工作中去,人和及其人可以和谐共存也可以成为朋友甚至是家人。
6.智能时代青少年人工智能伦理教育有必要吗?为什么?
我认为智能时代青少年人工智能伦理教育十分有必要。
从2017年起,伴随互联网和大数据信息技术的社会普及,“人工智能+教育”已成为当前国内教育领域的前端热门话题。编程作为人工智能教育的基础语言成为教育领域的焦点。越来越多的学校和企业采取联合教研的方式合作,利用双方优势助推人工智能教育的普及。国务院《新一代人工智能发展规划》指出,人工智能成为国际竞争的新焦点。人工智能是引领未来的战略性技术,人工智能将深刻改变人类生产生活方式和思维模式,人工智能的迅速发展将深刻改变人类社会生活、改变世界。 人工智能要从娃娃抓起,推动国民科学创新素质。信息数字化社会中,人工智无处不在,融入到教育、交通、金融等改革发展的万花筒中。两会时间里,人工智能被写进2018年政府工作报告,引起社会各界尤其是教育领域的高度关注。“人工智能时代刚刚来临,人工智能发展方面人才缺口大,同时国内中小学校的STEAM科学教育课程也亟待加强,这是促进素质教育的有力突破口。”中国教育科学研究院副研究员郁波说。教育部发布的《关于“十三五”期间全面深入推进教育信息化工作的指导意见》提出,鼓励中小学探索STEAM教育、创客教育等新教育模式,使学生具有较强的信息意识与创新意识,养成数字化学习习惯。“人工智能是改变人类未来生活方式的重要手段,是未来颠覆人类发展生活的大方向。”,对国内中小学教育,人工智能和教育相结合势在必行,“让人工智能融入中小学课堂,推助国民科学创新素质,为国家的人工智能发展培育种子力量,这是一种社会责任。