博舍

AI也会遭遇瓶颈 解析人工智能技术的存储性能需求 人工智能技术是基于什么提供的存储技术

AI也会遭遇瓶颈 解析人工智能技术的存储性能需求

2020年对于很多人而言都是永远值得铭记的一年,突如其来的新冠疫情几乎改变了每个人的生活,它不仅给人类的经济造成了重大损失,也给人类的健康带来了巨大的威胁。面对这难以对付的病毒,我们既看到了无数勇士的悲壮逆行,也看到了科技在整个抗疫斗争中所起到的关键作用,特别是其中的AI人工智能技术——通过AI技术我们可以加速疫苗的研发;通过AI技术,在众多医疗终端设备以及大量的病人临床数据中,我们能提炼出最佳的诊断方案,加速诊断的效率,提升诊断的效果。可以说,AI技术在这次关键的战役中发挥出了重大的作用。

人工智能已经深入医疗、教育、工业到能源、金融等各个领域。

 

因此并不意外,在2020年第三届软件定义存储峰会上,英特尔提出的主题是“突破内存与存储瓶颈 释放人工智能无限潜力”。毕竟在这场抗疫战斗中,英特尔不仅投入重金资助合作伙伴使用AI技术进行诊断、疫苗开发方面的研究,还推动AI科技在医学检验、医疗物资生产、疫情推演等多个领域加速落地,英特尔深知AI人工智能对人类的重要性。除了对抗新型病毒,AI人工智能技术其实也深入了人类生活的各个领域。英特尔公司中国区非易失性存储解决方案事业部战略业务开发总监倪锦峰先生在峰会上谈到:“从医疗、教育、工业到能源、金融等等,每个行业都在以数字化的方式来寻求主动变革,我们可以预见的是,在不远的将来,整个社会对数字化的服务需求将不断地激增”。

AI人工智能技术

将给存储产品带来重大挑战

人工智能技术的数据管道主要分为采集、准备、训练和推理四部分。每个部分需要读写不同类型的数据,工作负载也不尽相同。

 

“工欲善其事,必先利其器”,要想发挥出AI人工智能技术的最大威力,需要企业构建强有力的IT基础设施。这个设施不仅需要强有力的处理器、FPGA、GPU,也需要高性能的存储设备,否则就会如普通电脑一般,因为机械硬盘传输速度最慢,寻找数据的时间最长,往往会成为整个系统性能的瓶颈,即使是SATA/PCIeNANDSSD,很多时候也跟不上AI数据处理的需求。倪锦峰先生介绍到,无论用于哪个行业,人工智能的工作实际上主要由采集、准备、训练和推理四部分组成。每个部分需要读写不同类型的数据,工作负载也不尽相同,将给存储设备带来较大的挑战。

 

简单地说,在整个人工智能执行过程中,IO的需求是不可预测、复杂多变的,它读写的数据主要有三个重要的特点:

 

第一是它的数据集大小,差异性非常大,在最初开始的采集阶段是PB级别,到训练阶段是GB级别,到训练好了执行的函数,相关的模型可能是KB级别;

第二它的工作负载也是复杂多变的,从最初百分之百的写入到准备阶段的50%读、50%写混合负载,到后面的一些训练、推理阶段可能出现百分之百的读,其中包括很多的随机读取操作;

第三是存储模式也会有很多变化,从一开始顺序化的数据流写入,到后面则是通过完全随机的读写,来帮助建立准确的模型。

   

因此人工智能技术对存储性能的要求是很苛刻的,用户总是希望设备能满足高吞吐量和低延时的需求,总是希望更多的数据能够更加靠近处理器,以获取及时的传输、执行,但用户又会希望AI的基础设施投资成本能在可控的范围之内,可以说这是一个相互矛盾的需求,那么对于用户来说如何才能实现这个愿望呢?

 

优化成本,提升性能

英特尔存储产品构建分层存储 

首先还是应对用户使用的数据类型进行研究,倪锦峰先生向我们展示了英特尔经典的存储金字塔图。在应用中,并不是所有数据都会经常被用到,因此数据可以被分成热数据、温数据和冷数据等3个不同层次。热数据即需要立马进行处理的数据,例如银行收到的转账请求,即时的地理位置等。温数据是非即时的状态和行为数据,例如用户近期感兴趣的话题,或用户最近去过的地方等,冷数据则是不经常访问的数据。

 

研究数据类型、数据使用所形成的工作负载,对数据进行分层,并使用最适合的设备来存储数据可以提升存储系统的性能,并降低成本。

 

如果全部使用DRAM内存来存储这些数据,在性能上可能会表现突出,但也意味着用户需要花费非常高昂的成本。因此更合理的是根据数据的类型、负载对它们合理地使用存储设备。例如可以使用DRAM内存、英特尔傲腾持久内存来存储热数据,因为它们拥有很高的性能和超低的延迟,离CPU和GPU最近,能够获得及时的洞察。而英特尔傲腾固态盘搭配以英特尔为代表的TLC、QLCNAND固态盘,则凭借大容量、高性能适合用于热、温热、温存储。这种分层设计的绝妙之处在于金字塔里的每一个层级的数据、使用产品在容量和延时特性上正好有数量级的差距,这就使得用户可以根据数据的类型、工作负载进行冷热分层,并同时参考自己的预算,对性能的需求,对功耗的预期,来不断地优化自己的存储方案。

 

凭借不同于传统NAND闪存的革命性材料,傲腾具有就地写入、支持位寻址、低延迟等三大新特性。

 

那么英特尔的存储技术能否承担起这一重任呢?从倪锦峰先生的介绍中,可以看到由于使用了不同于传统NAND闪存的傲腾介质,傲腾持久内存、傲腾固态盘具有诸多新特性。首先是它支持就地写入,写入前不需要进行数据擦除。不像普通NAND闪存存在读-修改-写这个过程,因此它拥有更好的性能。同时在长时间写入后,它也不会出现数据脏块,不需要进行垃圾回收,因此傲腾产品可以很好地保持性能一致性,不会出现NAND固态盘用得越久、性能越差的问题。

 

与采用传统NAND闪存的DCP4600SSD相比,傲腾固态盘DCP4800X的延迟更低、一致性更好,寿命长得多,效率更高。

 

其次是傲腾技术支持位寻址,可以提供超低的延迟,带来更快的传输速度,毕竟AI人工智能技术的应用对存储设备的容量和性能都有很高的要求。相比传统NAND闪存,傲腾产品在性能上有质的提升,形象地比喻,就是将数据的载体从汽车升级为飞机。延迟方面,它最好可以做到微秒级别,虽然和内存DRAM的不到0.1微秒相比还是存在一定的差距,但是已远远好于NAND闪存的近百微秒的水平。英特尔数据显示傲腾DC固态盘的访问延迟不仅较传统HDD、SATASSD大幅降低,即便与同样采用NVMe接口的NANDSSD相比,其优势也是非常大的——与采用3DNAND颗粒的英特尔DCP4600SSD相比,傲腾固态盘DCP4800X的读取延迟在不同写压力、不同队列深度下,低了8~63倍。

 

此外新介质大幅提升了傲腾产品的寿命,英特尔傲腾固态盘可以支持多达60个DWPD(每日全盘写入次数),而大家所熟悉的英特尔P4600、P4610这样的高性能、高寿命的NAND固态盘,只能支持3个DWPD左右,英特尔傲腾固态盘的进步是非常可观的。

 

人工智能技术的数据管道可以通过使用英特尔傲腾持久内存、傲腾固态盘、QLC3DNAND固态盘,进行合理搭配来提升任务执行的效率,并降低成本、功耗。

 

同时从AI数据通道中的采集、整理、训练、推理四个阶段,可以看到各阶段对存储的要求是非常高的,需要有持续、一致的吞吐量,以及同样一致、持续、超低的延迟,这些需求正是傲腾产品所擅长的,再加上英特尔QLC3DNANDSSD所拥有的大容量(已可实现单盘32TB)、高性能特性,通过这样一个完美的结合,可以帮助改善客户对数据的融合,提升软件定义存储解决方案的性能,帮助用户为即将到来的人工智能时代的数据爆发做好相应的准备。

 

大幅提升效率

英特尔存储方案体现实际价值

采用傲腾固态盘后,VMWarevSAN、hadoop、CEPH等各个存储系统的性能都获得了大幅提升。

 

根据倪锦峰先生介绍,在实际使用中,不少平台改用英特尔傲腾产品后,都获得了很好的效果。如百度在2018年发布了基于英特尔傲腾固态盘加英特尔QLC3DNAND固态盘的存储解决方案,这一方案大幅提升了AI人工智能、大数据、云计算的存储性能。在AI的一个训练场景中,这一方案相比原来的HDD机械硬盘方案可以获得21倍的性能提升以及96%的延迟下降,同时降低TCO多达60%。在VMWarevSAN分布式存储系统中,将高性能缓存从NANDPCIe固态盘换成英特尔的傲腾固态盘后,其虚拟机密度提升了60%,同时系统整合率能够提升30%;在hadoop分布式架构中,当用户使用英特尔傲腾固态盘作为hadoop的临时数据缓存后,其吞吐量或性能可以提升40%左右。

 

而在CEPH分布式存储系统中,当用户使用英特尔傲腾固态盘替换了传统的NAND固态盘,作为元数据(metadata)缓存和journal盘后,其延迟可以降低50%左右,同时IOPS性能获得了40%左右的提升。在微软的AzureStackHCI云平台上,当用户将英特尔傲腾固态盘作为缓存盘后,则能使每个系统、每个节点所能够支持的虚拟机数量提升60%左右,同时虚拟机的跑分也能够提升约80分。此外,现在也有很多国内公司正在使用英特尔傲腾技术来进行存储解决方案的创新,包括浪潮、VMWare、XSKY、QingCloud等众多合作伙伴。

 

让存储更接近计算资源

让存储兼得高性能与稳定性

英特尔公司中国区非易失性存储解决方案事业部战略业务开发总监倪锦峰先生接受了采访

 

从以上的技术讲解、案例可以看到,英特尔解决方案之所以能有如此突出的表现,主要依赖的是性能接近内存的傲腾存储产品。而在前不久举行的2020英特尔中国年度战略“纷享会”上,英特尔也提出了近内存计算的概念,那么这是否代表着未来的存储趋势?幸运的是,笔者在此次大会上还获得了采访英特尔公司中国区非易失性存储解决方案事业部战略业务开发总监倪锦峰先生的机会。倪锦峰先生认为在这个数据爆发的时代,特别是当5G技术发展成熟之后,所产生的大量数据无法通过网络全部汇集到数据中心,所以部分数据必须要在边缘进行计算,这就需要存储和计算在边缘端融合在一起,只有高效的存储性能才能帮助边缘端快速完成计算。

 

而在数据中心里,则存在不少压缩、解压缩等具有规律性、重复性、依赖内存的计算需求,如果使用传统的执行方式将消耗很多CPU计算资源和DRAM内存资源。英特尔的中长期目标则是将计算和存储融合在一起,使得存储和计算更加靠近。比如英特尔中国研究院宋继强院长提到的方案是将FPGA与存储架构融合在一起,存储系统可以满足类似实时计算的要求,比如压缩、解压缩、AI训练等。同时存储系统的参与也能有效降低用户对CPU、内存资源的需求,从而降低成本。而性能接近内存的傲腾介质的确比较合适承担这一重任。

显然傲腾突出的性能是实现近内存计算的关键,那么企业在长时间使用傲腾时,是否需要进行额外的维护、保养呢?倪锦峰先生则表示对于传统的NAND闪存固态盘来说,可能需要这样的工作。毕竟传统SSD的读-修改-写机制会导致垃圾数据堆积,造成性能下降,同时垃圾回收等会带来额外的寿命损耗。传统SSD之所以后续会出问题,一是因为垃圾堆积没有有效处理,二是因为NAND闪存用的时间越长,它的坏块就会越多,因此需要做很多坏块的管理工作,坏块越多,冗余空间越来越少,性能也会越差。

 

而傲腾产品没有写入放大的问题,同时可擦写能力非常高,寿命有量级差异,所以它的整个生命周期里是没有性能衰减的问题。同时傲腾产品都经历了严格的性能和可靠性验证,包括模拟了恶劣负载情况下工作5年的测试,即加速老化测试。英特尔有大量的数据证明,傲腾产品在整个生命周期里面性能是一致、持续稳定的。

 

傲腾将成

加速AI人工智能技术的“催化剂”

在本文截稿时,新冠疫情仍没有结束,人类仍在与之战斗。但我们坚信没有一个冬天不能过去,没有一个春天不会到来,AI新兴技术必将助力人类更快地战胜疫情,加速推动社会的数字化和智能化的发展。而要加速AI技术的发展,像傲腾这样让数据更靠近CPU,性能接近内存的新技术必不可少。而凭借更大的存储容量和优异的性价比,英特尔QLC3DNAND也将成为取代HDD机械硬盘阵列的一个新选择。毫无疑问,傲腾技术与QLC3DNAND技术的结合,将成为AI人工智能技术的“催化剂”,我们也期待着这瓶“催化剂”能让AI人工智能技术发展得更快,并创造出更多的成果,为人类造福。

人工智能的核心技术是什么

人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。

1机器学习

机器学习(MachineLearning)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能技术的核心。基于数据的机器学习是现代智能技术中的重要方法之一,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。根据学习模式、学习方法以及算法的不同,机器学习存在不同的分类方法。

(1)根据学习模式将机器学习分类为监督学习、无监督学习和强化学习等。

监督学习

监督学习是利用已标记的有限训练数据集,通过某种学习策略/方法建立一个模型,实现对新数据/实例的标记(分类)/映射,最典型的监督学习算法包括回归和分类。监督学习要求训练样本的分类标签已知,分类标签精确度越高,样本越具有代表性,学习模型的准确度越高。监督学习在自然语言处理、信息检索、文本挖掘、手写体辨识、垃圾邮件侦测等领域获得了广泛应用。

无监督学习

无监督学习是利用无标记的有限数据描述隐藏在未标记数据中的结构/规律,最典型的非监督学习算法包括单类密度估计、单类数据降维、聚类等。无监督学习不需要训练样本和人工标注数据,便于压缩数据存储、减少计算量、提升算法速度,还可以避免正、负样本偏移引起的分类错误问题。主要用于经济预测、异常检测、数据挖掘、图像处理、模式识别等领域,例如组织大型计算机集群、社交网络分析、市场分割、天文数据分析等。

强化学习

强化学习是智能系统从环境到行为映射的学习,以使强化信号函数值最大。由于外部环境提供的信息很少,强化学习系统必须靠自身的经历进行学习。强化学习的目标是学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价为最佳。其在机器人控制、无人驾驶、下棋、工业控制等领域获得成功应用。

(2)根据学习方法可以将机器学习分为传统机器学习和深度学习。

传统机器学习

传统机器学习从一些观测(训练)样本出发,试图发现不能通过原理分析获得的规律,实现对未来数据行为或趋势的准确预测。相关算法包括逻辑回归、隐马尔科夫方法、支持向量机方法、K近邻方法、三层人工神经网络方法、Adaboost算法、贝叶斯方法以及决策树方法等。传统机器学习平衡了学习结果的有效性与学习模型的可解释性,为解决有限样本的学习问题提供了一种框架,主要用于有限样本情况下的模式分类、回归分析、概率密度估计等。传统机器学习方法共同的重要理论基础之一是统计学,在自然语言处理、语音识别、图像识别、信息检索和生物信息等许多计算机领域获得了广泛应用。

深度学习

深度学习是建立深层结构模型的学习方法,典型的深度学习算法包括深度置信网络、卷积神经网络、受限玻尔兹曼机和循环神经网络等。深度学习又称为深度神经网络(指层数超过3层的神经网络)。深度学习作为机器学习研究中的一个新兴领域,由Hinton等人于2006年提出。深度学习源于多层神经网络,其实质是给出了一种将特征表示和学习合二为一的方式。深度学习的特点是放弃了可解释性,单纯追求学习的有效性。经过多年的摸索尝试和研究,已经产生了诸多深度神经网络的模型,其中卷积神经网络、循环神经网络是两类典型的模型。卷积神经网络常被应用于空间性分布数据;循环神经网络在神经网络中引入了记忆和反馈,常被应用于时间性分布数据。深度学习框架是进行深度学习的基础底层框架,一般包含主流的神经网络算法模型,提供稳定的深度学习API,支持训练模型在服务器和GPU、TPU间的分布式学习,部分框架还具备在包括移动设备、云平台在内的多种平台上运行的移植能力,从而为深度学习算法带来前所未有的运行速度和实用性。目前主流的开源算法框架有TensorFlow、Caffe/Caffe2、CNTK、MXNet、Paddle-paddle、Torch/PyTorch、Theano等。

(3)此外,机器学习的常见算法还包括迁移学习、主动学习和演化学习等。

迁移学习

迁移学习是指当在某些领域无法取得足够多的数据进行模型训练时,利用另一领域数据获得的关系进行的学习。迁移学习可以把已训练好的模型参数迁移到新的模型指导新模型训练,可以更有效的学习底层规则、减少数据量。目前的迁移学习技术主要在变量有限的小规模应用中使用,如基于传感器网络的定位,文字分类和图像分类等。未来迁移学习将被广泛应用于解决更有挑战性的问题,如视频分类、社交网络分析、逻辑推理等。

主动学习

主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精度。主动学习能够选择性地获取知识,通过较少的训练样本获得高性能的模型,最常用的策略是通过不确定性准则和差异性准则选取有效的样本。

演化学习

演化学习对优化问题性质要求极少,只需能够评估解的好坏即可,适用于求解复杂的优化问题,也能直接用于多目标优化。演化算法包括粒子群优化算法、多目标演化算法等。目前针对演化学习的研究主要集中在演化数据聚类、对演化数据更有效的分类,以及提供某种自适应机制以确定演化机制的影响等。

2知识图谱

知识图谱本质上是结构化的语义知识库,是一种由节点和边组成的图数据结构,以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关“属性—值”对。不同实体之间通过关系相互联结,构成网状的知识结构。在知识图谱中,每个节点表示现实世界的“实体”,每条边为实体与实体之间的“关系”。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,提供了从“关系”的角度去分析问题的能力。

知识图谱可用于反欺诈、不一致性验证、组团欺诈等公共安全保障领域,需要用到异常分析、静态分析、动态分析等数据挖掘方法。特别地,知识图谱在搜索引擎、可视化展示和精准营销方面有很大的优势,已成为业界的热门工具。但是,知识图谱的发展还有很大的挑战,如数据的噪声问题,即数据本身有错误或者数据存在冗余。随着知识图谱应用的不断深入,还有一系列关键技术需要突破。

3自然语言处理

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译、机器阅读理解和问答系统等。

(1)机器翻译

机器翻译技术是指利用计算机技术实现从一种自然语言到另外一种自然语言的翻译过程。基于统计的机器翻译方法突破了之前基于规则和实例翻译方法的局限性,翻译性能取得巨大提升。基于深度神经网络的机器翻译在日常口语等一些场景的成功应用已经显现出了巨大的潜力。随着上下文的语境表征和知识逻辑推理能力的发展,自然语言知识图谱不断扩充,机器翻译将会在多轮对话翻译及篇章翻译等领域取得更大进展。

目前非限定领域机器翻译中性能较佳的一种是统计机器翻译,包括训练及解码两个阶段。训练阶段的目标是获得模型参数,解码阶段的目标是利用所估计的参数和给定的优化目标,获取待翻译语句的最佳翻译结果。统计机器翻译主要包括语料预处理、词对齐、短语抽取、短语概率计算、最大熵调序等步骤。基于神经网络的端到端翻译方法不需要针对双语句子专门设计特征模型,而是直接把源语言句子的词串送入神经网络模型,经过神经网络的运算,得到目标语言句子的翻译结果。在基于端到端的机器翻译系统中,通常采用递归神经网络或卷积神经网络对句子进行表征建模,从海量训练数据中抽取语义信息,与基于短语的统计翻译相比,其翻译结果更加流畅自然,在实际应用中取得了较好的效果。

(2)语义理解

语义理解技术是指利用计算机技术实现对文本篇章的理解,并且回答与篇章相关问题的过程。语义理解更注重于对上下文的理解以及对答案精准程度的把控。随着MCTest数据集的发布,语义理解受到更多关注,取得了快速发展,相关数据集和对应的神经网络模型层出不穷。语义理解技术将在智能客服、产品自动问答等相关领域发挥重要作用,进一步提高问答与对话系统的精度。

在数据采集方面,语义理解通过自动构造数据方法和自动构造填空型问题的方法来有效扩充数据资源。为了解决填充型问题,一些基于深度学习的方法相继提出,如基于注意力的神经网络方法。当前主流的模型是利用神经网络技术对篇章、问题建模,对答案的开始和终止位置进行预测,抽取出篇章片段。对于进一步泛化的答案,处理难度进一步提升,目前的语义理解技术仍有较大的提升空间。

(3)问答系统

问答系统分为开放领域的对话系统和特定领域的问答系统。问答系统技术是指让计算机像人类一样用自然语言与人交流的技术。人们可以向问答系统提交用自然语言表达的问题,系统会返回关联性较高的答案。尽管问答系统目前已经有了不少应用产品出现,但大多是在实际信息服务系统和智能手机助手等领域中的应用,在问答系统鲁棒性方面仍然存在着问题和挑战。

自然语言处理面临四大挑战:一是在词法、句法、语义、语用和语音等不同层面存在不确定性;二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;三是数据资源的不充分使其难以覆盖复杂的语言现象;四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算。

4人机交互

人机交互主要研究人和计算机之间的信息交换,主要包括人到计算机和计算机到人的两部分信息交换,是人工智能领域的重要的外围技术。人机交互是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。传统的人与计算机之间的信息交换主要依靠交互设备进行,主要包括键盘、鼠标、操纵杆、数据服装、眼动跟踪器、位置跟踪器、数据手套、压力笔等输入设备,以及打印机、绘图仪、显示器、头盔式显示器、音箱等输出设备。人机交互技术除了传统的基本交互和图形交互外,还包括语音交互、情感交互、体感交互及脑机交互等技术,以下对后四种与人工智能关联密切的典型交互手段进行介绍。

(1)语音交互

语音交互是一种高效的交互方式,是人以自然语音或机器合成语音同计算机进行交互的综合性技术,结合了语言学、心理学、工程和计算机技术等领域的知识。语音交互不仅要对语音识别和语音合成进行研究,还要对人在语音通道下的交互机理、行为方式等进行研究。语音交互过程包括四部分:语音采集、语音识别、语义理解和语音合成。语音采集完成音频的录入、采样及编码;语音识别完成语音信息到机器可识别的文本信息的转化;语义理解根据语音识别转换后的文本字符或命令完成相应的操作;语音合成完成文本信息到声音信息的转换。作为人类沟通和获取信息最自然便捷的手段,语音交互比其他交互方式具备更多优势,能为人机交互带来根本性变革,是大数据和认知计算时代未来发展的制高点,具有广阔的发展前景和应用前景。

(2)情感交互

情感是一种高层次的信息传递,而情感交互是一种交互状态,它在表达功能和信息时传递情感,勾起人们的记忆或内心的情愫。传统的人机交互无法理解和适应人的情绪或心境,缺乏情感理解和表达能力,计算机难以具有类似人一样的智能,也难以通过人机交互做到真正的和谐与自然。情感交互就是要赋予计算机类似于人一样的观察、理解和生成各种情感的能力,最终使计算机像人一样能进行自然、亲切和生动的交互。情感交互已经成为人工智能领域中的热点方向,旨在让人机交互变得更加自然。目前,在情感交互信息的处理方式、情感描述方式、情感数据获取和处理过程、情感表达方式等方面还有诸多技术挑战。

(3)体感交互

体感交互是个体不需要借助任何复杂的控制系统,以体感技术为基础,直接通过肢体动作与周边数字设备装置和环境进行自然的交互。依照体感方式与原理的不同,体感技术主要分为三类:惯性感测、光学感测以及光学联合感测。体感交互通常由运动追踪、手势识别、运动捕捉、面部表情识别等一系列技术支撑。与其他交互手段相比,体感交互技术无论是硬件还是软件方面都有了较大的提升,交互设备向小型化、便携化、使用方便化等方面发展,大大降低了对用户的约束,使得交互过程更加自然。目前,体感交互在游戏娱乐、医疗辅助与康复、全自动三维建模、辅助购物、眼动仪等领域有了较为广泛的应用。

(4)脑机交互

脑机交互又称为脑机接口,指不依赖于外围神经和肌肉等神经通道,直接实现大脑与外界信息传递的通路。脑机接口系统检测中枢神经系统活动,并将其转化为人工输出指令,能够替代、修复、增强、补充或者改善中枢神经系统的正常输出,从而改变中枢神经系统与内外环境之间的交互作用。脑机交互通过对神经信号解码,实现脑信号到机器指令的转化,一般包括信号采集、特征提取和命令输出三个模块。从脑电信号采集的角度,一般将脑机接口分为侵入式和非侵入式两大类。除此之外,脑机接口还有其他常见的分类方式:按照信号传输方向可以分为脑到机、机到脑和脑机双向接口;按照信号生成的类型,可分为自发式脑机接口和诱发式脑机接口;按照信号源的不同还可分为基于脑电的脑机接口、基于功能性核磁共振的脑机接口以及基于近红外光谱分析的脑机接口。

5计算机视觉

计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。自动驾驶、机器人、智能医疗等领域均需要通过计算机视觉技术从视觉信号中提取并处理信息。近来随着深度学习的发展,预处理、特征提取与算法处理渐渐融合,形成端到端的人工智能算法技术。根据解决的问题,计算机视觉可分为计算成像学、图像理解、三维视觉、动态视觉和视频编解码五大类。

(1)计算成像学

计算成像学是探索人眼结构、相机成像原理以及其延伸应用的科学。在相机成像原理方面,计算成像学不断促进现有可见光相机的完善,使得现代相机更加轻便,可以适用于不同场景。同时计算成像学也推动着新型相机的产生,使相机超出可见光的限制。在相机应用科学方面,计算成像学可以提升相机的能力,从而通过后续的算法处理使得在受限条件下拍摄的图像更加完善,例如图像去噪、去模糊、暗光增强、去雾霾等,以及实现新的功能,例如全景图、软件虚化、超分辨率等。

(2)图像理解

图像理解是通过用计算机系统解释图像,实现类似人类视觉系统理解外部世界的一门科学。通常根据理解信息的抽象程度可分为三个层次:浅层理解,包括图像边缘、图像特征点、纹理元素等;中层理解,包括物体边界、区域与平面等;高层理解,根据需要抽取的高层语义信息,可大致分为识别、检测、分割、姿态估计、图像文字说明等。目前高层图像理解算法已逐渐广泛应用于人工智能系统,如刷脸支付、智慧安防、图像搜索等。

(3)三维视觉

三维视觉即研究如何通过视觉获取三维信息(三维重建)以及如何理解所获取的三维信息的科学。三维重建可以根据重建的信息来源,分为单目图像重建、多目图像重建和深度图像重建等。三维信息理解,即使用三维信息辅助图像理解或者直接理解三维信息。三维信息理解可分为,浅层:角点、边缘、法向量等;中层:平面、立方体等;高层:物体检测、识别、分割等。三维视觉技术可以广泛应用于机器人、无人驾驶、智慧工厂、虚拟/增强现实等方向。

(4)动态视觉

动态视觉即分析视频或图像序列,模拟人处理时序图像的科学。通常动态视觉问题可以定义为寻找图像元素,如像素、区域、物体在时序上的对应,以及提取其语义信息的问题。动态视觉研究被广泛应用在视频分析以及人机交互等方面。

(5)视频编解码

视频编解码是指通过特定的压缩技术,将视频流进行压缩。视频流传输中最为重要的编解码标准有国际电联的H.261、H.263、H.264、H.265、M-JPEG和MPEG系列标准。视频压缩编码主要分为两大类:无损压缩和有损压缩。无损压缩指使用压缩后的数据进行重构时,重构后的数据与原来的数据完全相同,例如磁盘文件的压缩。有损压缩也称为不可逆编码,指使用压缩后的数据进行重构时,重构后的数据与原来的数据有差异,但不会影响人们对原始资料所表达的信息产生误解。有损压缩的应用范围广泛,例如视频会议、可视电话、视频广播、视频监控等。

目前,计算机视觉技术发展迅速,已具备初步的产业规模。未来计算机视觉技术的发展主要面临以下挑战:一是如何在不同的应用领域和其他技术更好的结合,计算机视觉在解决某些问题时可以广泛利用大数据,已经逐渐成熟并且可以超过人类,而在某些问题上却无法达到很高的精度;二是如何降低计算机视觉算法的开发时间和人力成本,目前计算机视觉算法需要大量的数据与人工标注,需要较长的研发周期以达到应用领域所要求的精度与耗时;三是如何加快新型算法的设计开发,随着新的成像硬件与人工智能芯片的出现,针对不同芯片与数据采集设备的计算机视觉算法的设计与开发也是挑战之一。

6生物特征识别

生物特征识别技术是指通过个体生理特征或行为特征对个体身份进行识别认证的技术。从应用流程看,生物特征识别通常分为注册和识别两个阶段。注册阶段通过传感器对人体的生物表征信息进行采集,如利用图像传感器对指纹和人脸等光学信息、麦克风对说话声等声学信息进行采集,利用数据预处理以及特征提取技术对采集的数据进行处理,得到相应的特征进行存储。识别过程采用与注册过程一致的信息采集方式对待识别人进行信息采集、数据预处理和特征提取,然后将提取的特征与存储的特征进行比对分析,完成识别。从应用任务看,生物特征识别一般分为辨认与确认两种任务,辨认是指从存储库中确定待识别人身份的过程,是一对多的问题;确认是指将待识别人信息与存储库中特定单人信息进行比对,确定身份的过程,是一对一的问题。

生物特征识别技术涉及的内容十分广泛,包括指纹、掌纹、人脸、虹膜、指静脉、声纹、步态等多种生物特征,其识别过程涉及到图像处理、计算机视觉、语音识别、机器学习等多项技术。目前生物特征识别作为重要的智能化身份认证技术,在金融、公共安全、教育、交通等领域得到广泛的应用。下面将对指纹识别、人脸识别、虹膜识别、指静脉识别、声纹识别以及步态识别等技术进行介绍。

(1)指纹识别指纹识别过程通常包括数据采集、数据处理、分析判别三个过程。数据采集通过光、电、力、热等物理传感器获取指纹图像;数据处理包括预处理、畸变校正、特征提取三个过程;分析判别是对提取的特征进行分析判别的过程。

(2)人脸识别人脸识别是典型的计算机视觉应用,从应用过程来看,可将人脸识别技术划分为检测定位、面部特征提取以及人脸确认三个过程。人脸识别技术的应用主要受到光照、拍摄角度、图像遮挡、年龄等多个因素的影响,在约束条件下人脸识别技术相对成熟,在自由条件下人脸识别技术还在不断改进。

(3)虹膜识别虹膜识别的理论框架主要包括虹膜图像分割、虹膜区域归一化、特征提取和识别四个部分,研究工作大多是基于此理论框架发展而来。虹膜识别技术应用的主要难题包含传感器和光照影响两个方面:一方面,由于虹膜尺寸小且受黑色素遮挡,需在近红外光源下采用高分辨图像传感器才可清晰成像,对传感器质量和稳定性要求比较高;另一方面,光照的强弱变化会引起瞳孔缩放,导致虹膜纹理产生复杂形变,增加了匹配的难度。

(4)指静脉识别指静脉识别是利用了人体静脉血管中的脱氧血红蛋白对特定波长范围内的近红外线有很好的吸收作用这一特性,采用近红外光对指静脉进行成像与识别的技术。由于指静脉血管分布随机性很强,其网络特征具有很好的唯一性,且属于人体内部特征,不受到外界影响,因此模态特性十分稳定。指静脉识别技术应用面临的主要难题来自于成像单元。

(5)声纹识别声纹识别是指根据待识别语音的声纹特征识别说话人的技术。声纹识别技术通常可以分为前端处理和建模分析两个阶段。声纹识别的过程是将某段来自某个人的语音经过特征提取后与多复合声纹模型库中的声纹模型进行匹配,常用的识别方法可以分为模板匹配法、概率模型法等。

(6)步态识别步态是远距离复杂场景下唯一可清晰成像的生物特征,步态识别是指通过身体体型和行走姿态来识别人的身份。相比上述几种生物特征识别,步态识别的技术难度更大,体现在其需要从视频中提取运动特征,以及需要更高要求的预处理算法,但步态识别具有远距离、跨角度、光照不敏感等优势。

7虚拟现实/增强现实

虚拟现实(VR)/增强现实(AR)是以计算机为核心的新型视听技术。结合相关科学技术,在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近似的数字化环境。用户借助必要的装备与数字化环境中的对象进行交互,相互影响,获得近似真实环境的感受和体验,通过显示设备、跟踪定位设备、触力觉交互设备、数据获取设备、专用芯片等实现。

虚拟现实/增强现实从技术特征角度,按照不同处理阶段,可以分为获取与建模技术、分析与利用技术、交换与分发技术、展示与交互技术以及技术标准与评价体系五个方面。获取与建模技术研究如何把物理世界或者人类的创意进行数字化和模型化,难点是三维物理世界的数字化和模型化技术;分析与利用技术重点研究对数字内容进行分析、理解、搜索和知识化方法,其难点是在于内容的语义表示和分析;交换与分发技术主要强调各种网络环境下大规模的数字化内容流通、转换、集成和面向不同终端用户的个性化服务等,其核心是开放的内容交换和版权管理技术;展示与交换技术重点研究符合人类习惯数字内容的各种显示技术及交互方法,以期提高人对复杂信息的认知能力,其难点在于建立自然和谐的人机交互环境;标准与评价体系重点研究虚拟现实/增强现实基础资源、内容编目、信源编码等的规范标准以及相应的评估技术。

目前虚拟现实/增强现实面临的挑战主要体现在智能获取、普适设备、自由交互和感知融合四个方面。在硬件平台与装置、核心芯片与器件、软件平台与工具、相关标准与规范等方面存在一系列科学技术问题。总体来说虚拟现实/增强现实呈现虚拟现实系统智能化、虚实环境对象无缝融合、自然交互全方位与舒适化的发展趋势。

互联互通社区

互联互通社区专注于IT互联网交流与学习,关注公众号:互联互通社区,每日获取最新报告并附带专题内容辅助学习。方案打造与宣讲、架构设计与执行、技术攻坚与培训、数据中台等技术咨询与服务合作请+微信:hulianhutongshequ

Artomatix:一款基于人工智能技术的游戏设计应用

原标题:Artomatix:一款基于人工智能技术的游戏设计应用

视频游戏产业的规模达到了惊人的800亿美元。但更为疯狂的是,超过60%的游戏开发成本花在了与游戏内艺术设计有关的工作中。

作为一家在今天亮相于Disrupt旧金山大会“创业竞技场”的创业公司,Artomatix正寻求通过基于人工智能的应用,极大地减少资金和人力消耗,而这些资金和时间都被投入到设计沉浸式游戏环境上了。该应用会从用户提供给它的数据中寻找视觉线索,然后再来呈现游戏艺术。

对于资源匮乏的独立游戏开发者来说,打造拥有众多个性化人物和环境特征的超大场景,对他们来说是一项难以完成的任务。在这种情况下,Artomatix正寻求赢得独立开发者的青睐,进而吸引大型游戏制作商的关注,后者已经与独立游戏开发商建立了密切的合作。

Artomatix的订阅价格会因为游戏开发商能力的不同而有所差异。Artomatix首席技术官埃里克·里瑟(EricRisser)博士告诉我,该公司打算针对独立游戏开发者推出SaaS(软件即服务)商业化模式,他们每个月可以花30美元租用Artomatix的软件。而大型游戏开发商可以订阅Artomatix的企业级服务项目,这些项目令其可以获得Artomatix的技术授权。

目前,Artomatix主要致力于运用人工智能引擎来解决视频游戏艺术设计问题,但该公司也表示,随着基于人工智能的软件的潜在应用带来深远影响,虚拟现实和电影制作可能不会落后太多。

翻译:皓岳

ArtomatixIsAnArtificiallyIntelligentGameDesigningApp返回搜狐,查看更多

责任编辑:

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇