华南理工大学人工智能支撑平台(中)
在《人工智能支撑平台(上)》中提到,人工智能未来发展的重要趋势是出现智能算法的支撑平台。今天智能算法研究中心的黄翰教授将带大家从人工智能(ArtificialIntelligence,AI)应用平台的发展现状与痛点来分析AI发展的趋势。
图1GoogleCloud平台logo
目前,人工智能支撑平台在国内外都有不少发展成果。放眼国际,首先不得不提及谷歌旗下的GoogleCloud平台。这是一个面向即插即用的AI组件平台,主要提供企业级的共享功能,使用户能以私密的云服务方式来托管AI内容。其中,AIHub功能可以发现产品结合AI的创新价值,指引产业中各角色进行线上协作,并为新创企业提供不同阶段的辅导,应用十分广泛。虽然GoogleCloud已在全球多家企业中落地应用,但类似的服务在国内还未被人们所熟知。
图2GoogleCloud官网(部分)
其次,2014年1月9日,IBM斥资10亿美元组建新部门Watson,而后构建了一个面向商业领域且基于大数据和机器学习的技术平台IBMWatson。该技术平台包含信息分析、自然语言处理和机器学习领域的大量创新技术,能够助力决策者从大量非结构化数据中提取所需信息。如今,IBMWatson已经被超过35个国家和17个产业领域所运用。
图32011年IBMWatson轻松击败两名智力竞赛节目“Jeopardy!”的前冠军
此外,微软公司借助全世界数以亿计用户的Windows桌面和浏览器,通过互联网架构打造了一个新型的云计算平台MicrosoftAzure,让Windows实现了由个人电脑(PersonalComputer,PC)端到云领域的转型。由于在转型过程中加入了很多与AI相关的元素,因此Azure平台在本质上是一种以Windows终端为支撑的AI支撑平台。
图4MicrosoftAzure平台logo
除了以上由巨头公司开创的AI平台,麻省理工学院计算机科学与人工智能实验室(MIT’sComputerScienceandArtificialIntelligenceLaboratory,MITCSAIL)的MIT平台也广为人知,因其以科研为主的特点而在研究人员中广受欢迎。MIT平台不仅涵盖人工智能、机器学习、计算生物学等方向的理论内容,还提供了许多支撑算法接口,以供全世界的科研人员使用。
最后,让我们将目光转向国际组织和不同国家。2013年,欧盟投入10亿美元启动人脑工程(HumanBrainProject,HBP)。该项目宣布向用户开放六大信息与通信领域的平台,希望借助计算、神经信息学和人工智能的先进方法研究大脑及其疾病,进而推动类脑计算和神经机器人等领域的创新。2019年,“欧洲联盟人工智能”(AI4EU)项目正式启动,旨在建立欧洲首个人工智能平台并构建欧洲人工智能共同体。但至今为止,这个项目的影响力低于预期,在世界范围内发声不多,网上只能查询到2019年及之前有关项目筹建的信息。
图5HBP发展计划
德国建立的人工智能支撑平台是一个顶级的人工智能研究机构——德国人工智能研究中心(DeutschesForschungszentrumfürKünstlicheIntelligenzGmbH,DFKI)。DFKI的研究主题覆盖了智能工厂、智能生产以及智能物流三个领域,符合“工业4.0”的五大特点——互联、数据、集成、创新、转型。DFKI也为“工业4.0”提供了人工智能的算法支撑。
图6德国人工智能研究中心(DFKI)logo
日本的BrainsTechnology公司也提供了一个基于机器学习的实时大数据分析平台,它主要提供对实时数据进行特征分析、算法选择、参数调整等功能,例如分析交通数据、医学数据、日常行为数据、穿戴数据等。如果你开发了一套穿戴式设备,需要对其收集的信息做数据分析,那你可以直接调用该大数据分析平台的服务而不需要自己做新的开发了。
以上介绍的都是国外的AI支撑平台,接下来谈谈国内的AI支撑平台:
(1)华为以云计算为基础,融合新信息与通信技术(InformationandCommunicationsTechnology,ICT),打造了一个数据与业务协同的敏捷创新平台。华为一直都在构建它的AI生态,同时注重ICT发展,目前在很多地方都建立了集成电路电脑(IntegratedCircuitComputer,ICC)研发基地。华为希望该平台以云基础融合ICT,使AI与其主营业务通讯联系起来,并以云服务为基础作为应用的支撑。
图7华为以云服务为基础实现运营商三类业务的云化
(2)腾讯依托旗下的腾讯AILab、腾讯优图开放平台、微信AI等团队把100多项AI功能以API和SDK的方案开放给行业有偿使用。因此,腾讯的AI支撑平台对于行业的支撑是一种商业行为,这是一种永长的支撑。就像阿里云提出的ET大脑,这个产业AI融合了阿里的尖端算法和突破性技术,它先在电子商务领域取得了一些成功经验,然后被推广到其他行业。
图8阿里云ET城市大脑
(3)百度在2015年以前就已陆续推出AI支撑平台的业务,例如百度大脑、PaddlePaddle深度学习平台等。百度AI开放平台提供大量算法,用户可以下载、购买甚至定制。
图9百度大脑发布会
(4)科大讯飞主要围绕语音识别、人机交互等功能研发AI开放平台,它的强项是提供开发接口,并把接口覆盖到各个领域。科大讯飞在2018年左右积极进行行业推广,寻找合作伙伴,目前已经基本构建了长期共赢的合作伙伴生态圈。
图10讯飞开放平台
(5)海康威视的AI开放平台依托大量的图像处理技术,包含视频分析、图像识别等主要功能,可以为用户提供算法定制、数据挖掘等服务。
图11海康威视AI开放平台
(6)商汤打造了以图像识别视觉为主的AI开放平台,并承担了科技部主导的智能视觉国家新一代人工智能开放创新平台建设任务,这是继百度、阿里云、腾讯、科大讯飞公司之后的第五个国家人工智能开放创新平台。
图12商汤AI开放平台
通过了解以上国内外AI支撑平台,我们可以发现它们具备一些共同的特点。首先,大多数平台提供的AI支撑都是通过互联网调用在线算法实现的。在上述平台中,除了谷歌提供的GoogleCloud有对调用时将对用户的个人业务信息进行加密的描述,其他平台并没有公开说明这一点。虽然现在对业务信息进行加密是一个很常见的技术,但有些用户仍不太放心,还是希望平台能够提供一些局域网或本地的算法服务。
图13谷歌相册文件加密功能
然而,如果要开展本地算法服务,那么算法对运行环境要求可能过高,同时还有行业的入侵风险。比方说,如果把腾讯、IBM或者微软引进到某个行业,这些公司有可能出现以算法的方式渗透这个行业,产生占用资源的行为。假设某公司用算法来收集数据,公司方可以将这个算法作为一种投资资源渗透到这个领域。因此,一些垂直领域的企业可能会考虑这方面的问题。
此外,算法定制费用昂贵。众所周知,算法是一种高级的软件工具,定制一个特殊软件的费用比较高,如果某个领域需要进行算法定制的场景繁多,费用将更加高昂,不一定所有企业都能承担这笔费用。所以,在行业支撑方面,目前只有一些大型的、资金充足的企业有能力购买定制版的AI服务,很多中小企业都无力承担这笔费用,但仅使用通用版又不一定能满足企业的需求。
因此,依据现有AI支撑平台的特点,黄老师认为这些平台可能面临以下技术难点:
第一,需要具备AI落地方面的丰富经验;
第二,需要具备一些优质的训练数据;
第三,需要具备强大的数据消化力;
第四,需要具备针对不同场景的解决方案。
如果要实现更高质量的AI支撑平台,就必须解决这些技术难点,那么在这个过程中将会有什么样的痛点?首先,AI算法工程师的薪资比较高,一般是普通程序员的两倍以上。例如,前几年一个深度学习的算法工程师在上海平均收入超过20k,一个Java算法工程师的平均收入超过9k,这还是业内偏低的收入,甚至可以说是“白菜价”了!以同增同长的角度看,现在企业聘请AI算法工程师需要增加更多投入,这并非是每个企业都能够承担的。如果你想吃一顿西北菜,但又不想特意去请一个薪资高昂的厨师,那么你可以选择下馆子。同理,当各领域从业人员想开发某个产品却又不想付出较大代价去定制算法时,如果有个平台能够方便地调用、部署或应用算法,并且价格又比较合适,那么业务人员可能很难
心动,由此AI支撑平台也可以对各领域的发展起到一个推动作用。
此外,尽管部分现存的AI支撑平台技术水平较高,但它们的商业化成熟程度并不高,因为整个行业缺少标准。目前AI支撑平台在金融、电商、安防等通用行业应用效果很好,但在体育、陶瓷、珠宝等较为特殊的行业发展比较缓慢。因为通用行业与大多数人的切身利益相关,人们在研发上投入的人力资源和物力资源都较多,而一些特殊行业因为较为小众,没有足够的市场来支撑AI昂贵的研发成本。近年来,一些网红餐厅之所以能快速红遍大江南北,是因为这个产业具备一整套形式化标准,规范融资、上市、加盟等机制,让经营者更加容易实现其目标。如果没有行业标准,让经营者四处搜集厨师以定制每一道菜,那么餐厅是很难做大做强的。发展AI和开餐厅有异曲同工之妙,缺少行业标准是目前AI支撑平台的痛点所在。
最后,由于让消费者接触AI还要考虑场景,一旦场景特殊,就需要培养具备更多领域专业知识的人才,这样的人才在短期内难以得到有效补充,因此AI人才招聘也是一个难题。
总编:黄翰
责任编辑:袁中锦
文字:黄翰、李加利
图片:李加利、袁中锦
校稿:何莉怡
时间:2022年4月23日
智能电网中的关键技术有哪些
根据信息处理流程,大数据在智能电网中的应用可以分为数据采集、数据清理、数据存储及处理、数据分析、数据解读和数据应用6个环节,其关键技术包括数据集成技术、数据存储技术、数据处理技术和数据分析技术。
1、数据集成技术
智能电网大数据具有分散性、多样性和复杂性等特征,这些特征给大数据处理带来极大的挑战。要想处理智能电网大数据,首先就需要对众多数据源的数据进行集成,通过数据抽取、转换、剔除、修正等处理,建立正确、完整、一致、完备、有效的智能电网大数据。目前通常采用的数据集成模型包括数据联邦、基于中间件模型和数据仓库等。
ETL是企业数据集成的主要解决方案。ETL指Extract、Transform、Load,即抽取、转换、加载。数据抽取是从源数据源系统抽取目的数据源系统需要的数据;数据转换是将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工;数据加载是将转换后的数据加载到目的数据源。ETL过程中的主要环节就是数据抽取、数据转换和加工、数据加载。为了实现这些功能,各个ETL工具一般会进行一些功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持、统计信息等。
数据集成是智能电网大数据应用的关键环节。智能电网大数据集成涉及众多各类型的应用系统,这些系统类型和特征复杂,在实时性要求、数据规模、数据类型等方面存在较大的差异,在智能电网大数据集成中需要综合考虑各种因素,在集成技术上单一技术可能很难实现,需要结合多种技术来实现智能电网大数据的集成。
2、数据存储技术
在智能电网大数据中,绝大多数数据为结构化数据,同时也存在文本、图像、音频、视频等非结构化或半结构化数据。对非结构化数据可采用分布式文件系统进行存储,对结构松散无模式的半结构化数据可采用分布式数据库,对海量的结构化数据可采用传统关系型数据库系统或分布式并行数据库。
2.1分布式文件系统
分布式文件系统适合存储海量的非结构化数据,将数据存储在物理上分散的多个存储节点上,对这些节点的资源进行统一管理和分配,并向用户提供文件系统访问接口,主要解决本地文件系统在文件大小、文件数量、打开文件数等方面的限制问题。
Hadoop是大数据的一个解决方案,可以实现大数据的存储、分析和管理。HDFS(HadoopDistributedFileSystem)是一个分布式文件系统,它是开源项目Hadoop的家族成员。HDFS将大规模数据分割为大小为64兆字节的数据块,存储在多个数据节点组成的分布式集群中,当数据规模增加时,只需要在集群中增加更多的数据节点,具有很强的可扩展性;同时每个数据块会在不同的节点中存储多个副本,具有高容错性;由于数据是分布存储的,具有高吞吐量的数据访问能力。
2.2分布式数据库
大数据环境下对数据的存储、管理、查询和分析需要采用新的技术,传统的数据库在数据存储规模、吞吐量、以及数据类型和支撑应用等存在瓶颈。分布式数据库由于具有很好的扩展性和协同性,在大规模数据存储和管理中得到广泛的应用。目前主要有键值存储系统、文档数据库、图数据库等。
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,它不同于一般的有模式的关系型数据库,HBase存储的数据表是无模式的,特别适合结构复杂多样的半结构化数据存储。HBase利用HDFS作为其文件存储系统,可利用Map-Reduce技术来处理HBase中的海量数据。
2.3关系型数据库系统
智能电网中很大一部分数据是结构化数据,针对一些数据和业务应用,传统关系型数据库可能更适合,因此在大数据环境下,传统关系型数据库也具有一定的应用。基于传统数据库如Oracle等构建数据仓库,开展智能电网业务的分析挖掘。
智能电网大数据结构复杂、种类繁多,其数据存储需要根据数据的特点选用适合的数据存储方式。数据管理也是智能电网大数据的重要功能,从整体上对存储在不同系统上的数据进行统一管理,并提供数据索引和查询功能。综合以上分析,数据存储对比见表1。
3、数据处理技术
智能电网大数据的应用类型多,需要根据不同的业务需求采用不同的数据处理技术。根据大数据的数据特征和计算需求,大数据处理技术分流处理、批处理、内存计算、图计算等。
3.1流处理
流处理的处理模式将数据视为流,源源不断的数据组成了数据流,当新的数据到来时就立刻处理并返回所需的结果。数据流本身具有持续达到、速度快且规模巨大等特点,因此通常不会对所有的数据进行永久化存储,而且数据环境处在不断的变化之中,系统很难准确掌握整个数据的全貌。目前广泛应用的流处理系统有TwitterStorm和YahooS4。
Storm是分布式实时计算系统,主要用于流数据处理,可以简单、高效、可靠地处理大量的数据流。它能够处理源源不断流进来的信息,处理之后将结果写入到某个存储中去。Storm的优点是全内存计算,因为内存寻址速度是硬盘的百万倍以上,所以Storm的速度较快。Storm弥补了Hadoop批处理所不能满足的实时要求,经常用于实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。
3.2批处理
Google公司在2004年提出的Map-Reduce是最具代表性的批处理模式。Map-Reduce是一个使用简易的软件框架,用于大规模数据集的并行运算,主要用来进行大规模离线数据分析。基于它实现的应用程序能够运行在由数千个商用机器组成的大型集群上,并以一种可靠容错的并行处理大规模数据集。Map-Reduce的核心思想是将问题分而治之,并把计算推到数据所在的服务器,有效地避免数据传输过程中产生的大量通信开销。
Map-Reduce的优点主要有2个方面:
①不仅能用于处理大规模数据,而且能将很多繁琐的细节隐藏起来,如自动并行化、负荷均衡和灾备管理等,这将极大简化开发工作;
②伸缩性非常好,集群能够方便的扩展。而Map-Reduce的不足是其不适应实时应用的需求,只能进行大规模离线数据分析。
3.3内存计算
随着内存价格的不断下降,服务器配置的内存容量不断增大,用内存计算来完成大规模数据处理成为可能。与HadoopMap-Reduce批处理相比,内存计算能够提供高性能的大数据分析处理能力。内存计算是一种体系结构上的解决方法,它可以和各种不同的计算模式相结合,包括批处理、流处理、图计算等。比如Spark是分布式内存计算的一个典型并行计算框架,Spark基于Map-Reduce算法实现的分布式计算,拥有HadoopMap-Reduce所具有的优点;但不同于Map-Reduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark具有更好的性能,适用于数据挖掘与机器学习等需要迭代的Map-Reduce的算法。
智能电网大数据应用根据业务特点和对处理响应的时间来选择数据处理的方式,针对电网安全在线分析、电网运行监控等业务,数据实时性要求高、需要作出迅速响应,可以采用流处理内存计算;而对于用户用电行为分析等业务,实时性和响应时间要求低,可以采用批处理方式。综合以上分析,数据处理方式对比见表2。
4、数据分析技术
数据分析是智能电网大数据处理的核心,由于大数据的海量、复杂多样、变化快等特性,大数据环境下的传统小数据分析算法很多已不再适用,需要采用新的数据分析方法或对现有数据分析方法进行改进。
数据挖掘方法主要有分类、关联分析、聚类、异常检测、回归分析等,其中每一类包括众多的算法。分类包括支持向量机、决策树、贝叶斯、神经网络等技术;关联分析包括Apriori、FP-growth等算法;聚类分析分为划分法、层次法、密度法、图论法、模型法等,具体算法如k-means算法、K-MEDOIDS算法、Clara算法、Clarans算法、SOM神经网络、FCM聚类算法等;异常检测包括基于统计、距离、偏差、密度等方法。在智能电网应用中需要对现有的算法进行优化和并行化改进,实现分布式处理。
机器学习是面向任务解决的基于经验提炼模型实现最优解设计的计算机程序,通过经验学习规律,一般应用在缺少理论模型指导但存在经验观测的领域中。机器学习分为归纳学习、分析学习、类比学习、遗传算法、联接学习、增强学习等。深度学习是机器学习研究中的一个新的领域,2006年由Hinton等提出,其目的在于建立模拟人脑进行分析学习的神经网络,目前深度学习在语音识别、图像识别、机器翻译等领域进行了应用,并取得了较好的效果。
智能电网大数据挖掘主要为结构化数据,同时也存在文本、图像、音频、视频等数据,在智能电网大数据应用中需要针对具体的业务采用合适的数据分析方法。