加快人工智能技术在档案管理工作中的应用
近年来,人工智能技术呈井喷式发展,在诸多领域引发变革,成为各国政府、产业界、科研机构及消费市场竞相追逐的国家战略级科技技术,并已深入人们工作、生活的方方面面,在提高生活质量、增强工作效率、推动社会发展等方面发挥着巨大作用。
我国高度重视人工智能技术发展,从国家层面、行业层面、地方层面纷纷制定人工智能相关政策,积极推动人工智能技术发展及其落地应用。档案行业在战略转型的过程中,也积极拥抱人工智能技术,目前,已有部分档案部门率先开展基于人工智能技术的应用与研究工作,并取得一定成果。
从人工智能技术发展现状与档案行业迫切需求等角度来看,人工智能技术目前主要可应用于档案数据化、分类与划控、档案影像修复着色、智能安防4类工作场景中。
一是档案数据化工作领域。“数据化”是近年来在档案行业被反复提及的热门词汇。档案数据化旨在将图像、声像等档案中的内容识别成计算机可编辑、处理、分析、检索的信息。档案数据化工作又可具体分为纸质档案数字化副本OCR(光学字符识别)、照片档案数据化、录音档案数据化、录像档案数据化4种场景。
在国家档案局大力实施“存量数字化、增量电子化”战略的背景下,全国各级档案馆(室)存量档案数字化工作成效显著。截至2019年年底,全国各级综合档案馆馆藏档案数字化副本量已达1407.8万GB。部分地区档案部门在完成纸质档案数字化工作的基础上,纷纷启动了档案OCR全文识别工作。国家档案局因势利导,于2019年12月出台《纸质档案数字复制件光学字符识别(OCR)工作规范》,标志着该项工作在档案行业已全面启动。基于人工智能技术的OCR在简体印刷文字方面的识别率已达98%以上,为档案部门持续开展OCR工作提供了技术保障。
近年来,语音识别技术发展迅速,基于标准普通话的语音识别率已达97%以上。人脸识别技术也不断成熟,已广泛应用于安防、金融认证等方面。与此同时,随着影像技术的不断发展,存储成本降低,数字录音、数字录像档案存量不断增长。档案部门也积极探索数字录音、数字录像档案的数据化工作,并基于人工智能技术开展相关研究,取得较大进展。浙江省档案馆与科大讯飞公司联合开展了国家档案局科技项目《人工智能技术在音视频档案整理利用中的应用研究》,通过综合运用语音识别、人脸识别等技术实现语音全文数据化、人物智能聚合等,项目成果于2020年9月3日正式发布。
二是分类与划控工作领域。归档分类和划控鉴定是两种工作场景,但从技术角度来看,有相同之处,因此,笔者将这两者归为一类进行阐述。分类与赋予保管期限工作一直是档案管理领域的基础性工作,但由于重视程度不够、专业人员匮乏等原因,该工作一直是部分基层档案部门面临的比较棘手的问题。通过人工智能技术辅助缺乏经验的档案管理工作人员开展归档分类工作,可解决基层档案部门的难点问题,提高归档效率与准确性,具有一定的实用价值。
划控鉴定工作难度大、风险高、责任大,且相关专家人数少,标准不统一,在一定程度上阻碍了档案的开放工作。新修订的档案法已正式实施,本次修订的重大内容之一是缩短了档案开放期限、扩大了开放主体、拓宽了开放渠道和方式,并对不按规定开放的责任追究等作出具体规定,此举必将进一步促进档案的开放工作。
当前,已有档案部门率先开展基于人工智能技术的研究与应用工作,如中国移动通信集团江苏有限公司基于TextCNN(利用卷积神经网络对文本进行分类的算法)人工智能算法开展档案保管期限鉴定工作;安徽省档案局与科大讯飞公司联合开展了国家档案局科技项目《人工智能技术在档案划控上的应用》,辅助档案管理人员开展档案划控鉴定工作。
三是档案影像修复着色工作。在新中国成立70周年之际,中央档案馆公布了迄今关于开国大典时间最长、内容最完整的彩色录像档案,在网络上引起了巨大轰动,该彩色录像档案被各大媒体转载报道,仅24小时浏览量就达到3.2亿次。同期上映的电影《决战时刻》斥巨资将开国大典黑白影像修复为4K彩色影像,也同样引起了较大的社会反响。虽然修复着色后的档案影像在一定程度上改变了其原貌,甚至无法再将其作为档案,但是在信息时代下,清晰彩色的历史影像不仅能增强人们对历史的好奇心和兴趣,激发人们的民族自豪感,还能充分发挥档案在爱国主义宣传、教育等方面的作用。因此,档案影像修复着色工作具有一定的社会效益。国家档案局档案科学技术研究所研究二室已在该领域开展相关实验并申报课题,下一步,将在基于人工智能技术的档案影像修复着色领域持续开展应用研究。
四是智能安防工作。当前,智能安防技术已发展得十分成熟,从2005年开始启动的平安城市建设,到2011年启动的智慧城市建设,以及天网工程、“雪亮工程”等安防重点项目处处可见人工智能技术的影子。作为智慧档案馆的一部分,许多档案部门已将智能安防系统纳入规划、建设内容之中。当前,先进的智能安防系统多采用集人脸识别、步态识别、人体特征识别、语音识别等于一体的多模态识别技术,进一步提高了智能安防系统的安全等级,为档案安防工作提供更好的技术保障。
当下,人工智能技术的发展已日趋成熟,简体印刷文字OCR识别、标准普通话语音识别等功能基本可直接应用于档案工作。在现阶段的人工智能技术条件下,要拓宽更多的应用场景还需进一步开展算法优化、模型设计及训练等适配工作,并投入一定成本。为适应时代发展,应进一步发掘人工智能技术在档案管理工作中的应用场景,加强对人工智能技术的研究与应用,尽快建立健全相关标准,着力打造“会技术,懂档案”的复合型人才队伍,科学运用新一代信息技术加速档案事业战略转型工作。
原载于《中国档案报》2021年1月14日总第3628期第三版
人工智能在材料科学的应用
人工智能在材料科学的应用1.绪论在传统的新材料开发方式及材料制作工艺中,材料科学研究者往往是通过实验与模拟的方法进行研发,所需要的工程量十分巨大并且获得的目标材料需要依赖一定的经验与运气,如何提供材料的研发效率成为了材料科学研究者的首要目标。而随着人工智能技术在众多领域的出色表现,越来越多的研究者也投入人工智能与材料科学的研究,并在两者的结合中取得了众多研究成果。
2016年5月,Nature将一篇机器学习算法改变材料发现方式的论文放上封面,并提出“从失败中学习”[1]:美国研究者利用机器学习算法,用失败的实验数据预测了新材料的合成,并且在实验中机器学习模型预测的准确率超过了经验丰富的化学家。这一研究意味着人工智能将改变传统材料发现方式,通过人工智能技术发明新材料的可能性也将大幅提高。
图1‑12016年5月5日《Nature》封面
同月,Nature新闻专题的封面也刊登了一篇题为《人工智能将创造更优秀的材料?》(《Canartificialintelligencecreatethenextwondermaterial?》)[1].[2]的文章。该文章认为,通过计算机建模和机器学习技术,可以很快地根据人们所需要的性能预测出相应候选材料。因此,科学家们将不再需要瞎猫撞死耗子般地制作新材料,而是按照计算机计算结果的指导,制作出相应候选材料并测试,从而加快了新材料的研发的速度和效率。
2020年7月在webofscience数据库通过对关键词“machinelearning”和“deepneuralnetworks”检索,筛选关于材料化学能源领域发现,关于机器学习已经发表了6335篇。可见目前将人工智能技术应用在材料科学领域已经成为一大热点。
图1‑2webofscience数据库检索结果
2.基于人工智能技术的材料科学研究的发展2.1材料科学的发展阶段根据研究方法的变革,可以将材料科学的发展分作4个阶段:经验测试阶段、理论研发阶段、计算模拟阶段[1].[3]、人工智能阶段。
(1)经验测试阶段
在材料科学的早期,研究者往往是以经验科学为主进行材料研究。在该阶段研究者凭借对材料的长时间测试与应用,从而积累对材料特性的经验。该阶段研究者需要经历反复实验,新材料产生的周期长、效率低。
(2)理论研发阶段
随着各领域研究的深入,材料科学的理论基础逐渐成熟起来,理论模型中的热力学模型的应用为材料研究提供了众多帮助,提高了新材料研究的效率。
(3)计算模拟阶段
计算机的应用使得材料科学的研究进入了计算模拟阶段,一系列模拟计算方法大大提升了材料科学的研究。
(4)人工智能阶段
随着人工智能技术的普及和机器学习深度学习技术在材料领域的应用,AI技术与材料研发的结合逐渐紧密,并在材料设计领域发挥极其关键的作用。
2.2材料科学在人工智能阶段的发展因素随着进入人工智能阶段,材料科学进入了高速的发展期,而材料科学之所以能有效结合人工智能技术,主要得益于以下三点因素[4]:
(1)充足的材料科学理论研究
人工智能技术的应用需要有相应应用领域的理论支撑,随着研究者对材料科学理论研究的深入,越来越多物理机制以及材料结构与性能的关系能够从理论层面去解释,从而有利于通过计算机基于材料科学理论去模拟真实材料的结构与性能。
(2)多尺度、高通量的模拟计算软件与高效的计算能力
随着针对材料科学的模拟计算软件的发展,材料模拟计算软件能够愈加精确地模拟不同材料结构与材料特性。基于多尺度、高通量的模拟计算软件,能更加高效地结合人工计算进行应用,同时结合高效的计算机计算能力,能够将需要大规模算力支持的人工智能技术结合模拟计算软件进行材料科学的研究。
(3)规模化、系统化的材料数据库
材料基因工程理念提出后,规模化、系统化材料数据库逐渐发展成型,并开始关注发展数据共享、数据自动收集和输出等系列新功能。一方面,材料数据库可为高通量的人工智能实验以及高通量计算结果提供海量数据存储空间;另一方面,材料数据库为高通量人工智能计算提供数据参数,能有效挖掘材料原理与指导新材料的设计。
3.基于人工智能技术的材料科学研究的研究领域基于人工智能技术的材料科学的研究领域主要集中在材料逆向分析、新材料发现以及材料预测三个方面,三个方面也对应着人工智能技术应用的三个步骤:数据的挖掘、模型的训练与优化、模型的应用。下文将举例现阶段各研究者分别在三个方面的具体应用。
图3‑1基于人工智能技术的材料科学研究的研究领域的三个方面
2.1逆向分析-数据的挖掘在逆向分析的领域,研究者基于所收集的材料数据信息进行数据挖掘,从而在数据中挖掘出有利用价值的规律,如材料不同性质之间的联系,进而总结新的数据信息。
《半监控机器学习在材料合成过程中的应用》[5](《Semi-supervisedmachine-learningclassificationofmaterialssynthesisprocedures》)中,作者演示了一种半监督的机器学习方法,用于根据书面自然语言对无机材料的合成程序进行分类。无需任何人工输入,潜在的Dirichlet分配就可以将关键字聚集到与特定实验材料合成步骤相对应的主题,例如“研磨”和“加热”,“溶解”和“离心分离”等。在少量注释的指导下,随机分类可以将这些步骤与不同类别的材料合成(例如固态或水热合成)相关联。
最后,作者证明了实验步骤顺序的马尔可夫链表示可以准确地重建可能的合成程序流程图。这种机器学习方法提供了一种可扩展的方法,可以从文献中解锁大量的无机材料合成信息,并将其处理为标准化的机器可读数据库。
图3‑2通过马尔可夫链表示可以准确地重建可能的合成程序流程图
《从大量沸石材料合成记录中将合成和结构相联系》[6](《Linkingsynthesisandstructuredescriptorsfromalargecollectionofsyntheticrecordsofzeolitematerials》)这项研究使用机器学习技术分析了从文献中收集的沸石的合成记录,以合理化对其性质和结构的理解。从机器学习模型中提取的综合描述符用于识别具有适当重要性的结构描述符。基于结构描述符的晶体结构相似性网络,显示了由合成相似材料组成的群落的形成。基于先前被忽略的结构相似性的交叉实验,揭示了沸石的合成相似性,证实了合成结构之间的关系。该方法适用于使经验知识合理化、填充合成记录并发现新颖材料的系统。
图3‑3《从大量沸石材料合成记录中将合成和结构相联系》研究流程
3.2新材料发现-模型的训练与优化在新材料发现领域,研究者通过构建相关人工智能算法模型并输入大量的材料数据,从而训练出具有材料设计功能的人工智能算法模型,协助研究者寻找与发现新材料。
《基于过程-结构-性能-性能互惠的弱监督学习关系提取》[7](《Relationextractionwithweaklysupervisedlearningbasedonprocess-structure-property-performancereciprocity》)中,研究人员利用物理和化学理论并借助于量子力学,让计算机重新发现变量之间的关系,这是借助人工智能进行材料设计的新方法。
研究人员可以创建不同的材料变量,并询问AI系统设计将如何体现,如果让分子链更长或更短,或添加不同的化学物质会发生什么变化,计算机都会给出性能结果。执行一次迭代只需要几微秒,而传统方法可能需要几天甚至几周。
用户可以输入他们想要的所需材料属性,系统将搜索数以千计的科学文章以寻找匹配的材料。系统利用这种简单的组合关系来设计材料,同时允许大规模批量生产这些具有相同高性能的新材料。AI使得计算机可以在很短的时间内解决问题,单纯依赖研究人员将要花费几倍的时间。
图3‑4《基于过程-结构-性能-性能互惠的弱监督学习关系提取》功能流程
在以往的研究中,机器学习方案的成功是基于数据库中数据的共同趋势,通过这样的共同趋势训练,开发的模型可以应用于预测大多数化合物的结构与性能的关系。这对通常的化合物是有效的、准确的,因为在材料数据库的大多数情况下,通常化合物具有规则的结构单元。然而,例外总是存在的(即使有95%的预测精度,总还有5%的例外)。
在《使用大数据和机器学习技术在异常中发现异常结构》[8](《Discoveringunusualstructuresfromexceptionusingbigdataandmachinelearningtechniques》)中,潘锋团队通过对大量数据不断改良机器学习不仅能够实现高精度预测材料的结构和性能相关性(相当于发现材料的“遗传”性质),同时首次原创性着眼于这些不在预测范围的“例外”,并且通过分析这些“例外”(相当于发现材料的“变异或突变”性质),即分析远离总体趋势的异常结果,从中获得新的洞见,发现了新型的结构基元(具有正3价的银离子基团),这对基础物理化学有了一些新的认识,并在科学上开辟了新的领域。
图3‑5《使用大数据和机器学习技术在异常中发现异常结构》研究流程
在该工作中,团队通过自主建立了一个包括HSE计算数据的材料结构数据库,并基于此通过机器学习的方法对材料结构的带隙进行学习,并展示了机器学习是如何被用来作为一种工具来挑选这些不寻常的案例,以及如何用传统的分析方法来研究这些不寻常的案例,从而拓宽已有的科学知识。
在该工作中,团队只使用了相对较小的数据集进行训练,并且ML模型的总体性能与已有的工作相当,模型R2约为0.89。通过观察带隙预测模型的结果,团队从数据库约4000种化合物中确定了34种不同寻常的“例外”化合物,在具体的分析之后,其中许多化合物具有不寻常的结构或其它异常,如特殊的配位环境或氧化态,带隙相对于同族其它化合物的突然增加,或是同族不同化合物之间的不同相结构。
图3‑6机器学习预测带隙的结果
在这些具有较大预测误差的化合物中,团队发现了具有Ag3+和O22-特殊结构的AgO2F。随后,通过与KAgO2(“正常”结构)的电子结构对比,他们发现AgO2F中不寻常的氧化态(O22-)使得O与Ag之间轨道杂化很小,带隙附近的能级主要由O原子的2p轨道贡献,带隙远小于其它含有Ag3+的化合物。这一实例证明了可以通过检查机器学习模型中的异常,从大型数据库中快速发现异常结构。
图3‑7AgO2F(“异常”)与KAgO2的电子结构比较。AgO2F由于具有不寻常的氧化态(O22-)从而具有异常表现
3.3材料预测-模型的应用在材料预测领域,研究者通过训练出相关人工智能算法模型总结材料状态与材料性能规律,进而利用人工智能算法模型结合所监测的材料状态分析材料的性能。
有机光伏(OPV)电池提供一个直接的和经济的方式来将太阳能转化为电能。近年来,OPV的研究迅速发展,功率转换效率(PCE)已超过17%。迄今为止,OPV研究的主流一直集中在建立新的OPV分子结构与其光伏性质之间的关系。该过程通常涉及光伏材料的设计和合成,材料的光电性能表征以及光伏电池的组装和优化。
这些传统方法通常需要精细控制化学合成、制造精密装置、费力的纯化和繁琐的实验步骤,这导致大量的资源投入以及较长的研究周期。因此,OPV的开发效率低下且缓慢。
《机器学习辅助的高性能有机光伏材料分子设计和效率预测》[9](《Machinelearning–assistedmoleculardesignandefficiencypredictionforhigh-performanceorganicphotovoltaicmaterials》)中,重庆大学的孙宽教授、中科院的陆仕荣教授和肖泽云教授共同建立了一个数据库,其中包含从文献中收集的1719个经过实验测试的OPV供体材料。他们首先研究了分子的表达对ML性能的重要性。为了确定最合适的表达式,我们测试了不同类型的表达式,包括图像、ASCII字符串、两种类型的描述符和七种类型的分子指纹。根据PCE值,描述符可将材料分为“低”和“高性能”。指纹具有最佳性能(预测PCE类的准确度为81.76%),并且其长度对预测的准确性有显着影响。
此外,作者使用了多种ML算法进行分类。研究发现,当处理小型数据库时,RF模型的性能优于其他模型。最后,作者通过合成10种新的OPV供体材料独立验证了ML模型。该模型的预测与实验结果吻合良好。
通过这项工作,作者为OPV研究建立了一种新方法,即通过ML模型预筛选设计的OPV分子,然后仅关注在后续实验中通过ML虚拟评估的分子。这种方法将大大加快开发用于OPV应用的新型高效有机半导体材料的探索过程。
4.基于人工智能技术的材料科学研究的问题与展望4.1基于人工智能技术的材料科学研究的现存问题人工智能变革材料科学研究方法尚存在不少问题:
一是受制于材料数据、材料性能控制因素,人工智能目前仅对少部分材料奏效。
二是计算机预测的材料,并不一定能够在实验室成功合成乃至规模量产,这个过程可能会很长。
4.2基于人工智能技术的材料科学研究的展望针对现存问题,本文提出两大发展方向:材料数据库的扩充与新技术的发展。
(1)材料数据库的扩充
更多更为详尽的材料数据库可为研发人员缩短研发周期和研发成本。当前的材料研究的思路是对成分、工艺的调整,获得具有理想微结构与性能匹配的目标材料。材料数据库建立了成分、工艺、微结构、性能之间的内在联系,将有利于设计与优化材料成分与工艺。
(2)新技术的发展
新技术的突破与应用能为研发人员带来更多意想不到的惊喜。例如陶瓷材料作为一种具有26000年历史的材料,因其突出的热力学,机械及化学稳定性获得了广泛的应用,但一直以来陶瓷制备工艺需要长时间烧结的难题成为其发展的巨大限制,尤其是因烧结引起的组分挥发问题。而马里兰大学(UMD)材料科学与工程系(MSE)的科学家们创造性的发明了一种超快高温烧结(UHS)陶瓷的新方法,以不到10s时间制造出块体陶瓷材料,从而将十几小时的烧结时间缩短到几秒钟,这种新方法解决了理论计算和人工智能等引导发现新材料的关键瓶颈问题。
参 考 文 献Machine-learning-assistedmaterialsdiscoveryusingfailedexperiments,PaulRaccuglia…,Naturevolume533,pages73–76(2016)Canartificialintelligencecreatethenextwondermaterial?(NicolaNosengo.,2016,DOI:1.19850)AgrawalA,ChoudharyA.AptMater/a/s[J],2016,4(5):1-17.王卓,王礞,雍歧龙,郭艳华,崔予文.材料信息学及其在材料研究中的应用[J].中国材料进展,2017,36(02):132-140.Semi-supervisedmachine-learningclassificationofmaterialssynthesisprocedures (npjComputationalMaterials,2019,DOI:10.1038/s41524-019-0204-1)Linkingsynthesisandstructuredescriptorsfromalargecollectionofsyntheticrecordsofzeolitematerials(Nat.Commun.,2019,DOI:10.1038/s41467-019-12394-0)Relationextractionwithweaklysupervisedlearningbasedonprocess-structure-property-performancereciprocity(TakeshiOnishi…,DOI:10.1080/14686996.2018.1500852)Discoveringunusualstructuresfromexceptionusingbigdataandmachinelearningtechniques(JianshuJie1…,DOI:10.1016/j.scib.2019.04.015)Machinelearning–assistedmoleculardesignandefficiencypredictionforhigh-performanceorganicphotovoltaicmaterials(Sci.Adv.,2019,DOI:10.1126/sciadv.aay4275)