博舍

AI芯片发展现状及前景分析 ai芯片应用场景及市场需求分析论文

AI芯片发展现状及前景分析

【文/期刊《微纳电子与智能制造》安宝磊】

随着深度学习领域[1-4]带来的技术性突破,人工智能(artificialintelligence,AI)无论在科研还是在产业应用方面都取得了快速的发展。深度学习算法需要大量的矩阵乘加运算,对大规模并行计算能力有很高的要求,CPU和传统计算架构无法满足对于并行计算能力的需求[5],需要特殊定制的芯片。目前,AI芯片行业已经起步并且发展迅速[6]。

1.AI芯片定义及技术架构

1.1AI芯片定义

广义上所有面向AI应用的芯片都可以称为AI芯片。目前一般认为是针对AI算法做了特殊加速设计的芯片。现阶段,这些人工智能算法一般以深度学习算法为主,也可以包括其他浅层机器学习算法[7-8]。

1.2AI芯片功能

(1)训练。对大量的数据在平台上进行学习,并形成具备特定功能的神经网络模型。对AI芯片有高算力、高容量和访问速率、高传输速率、通用性的要求。

(2)推理。利用已经训练好的模型通过计算对输入的数据得到各种结论。对于AI芯片主要注重算力功耗比、时延、价格成本的综合能力。实验证明低精度运算(如float16,int8)可达到几乎和float32同等的推理效果,所以AI推理芯片有低精度算力的要求。

1.3技术架构

表1列出了AI芯片的几种技术架构,并对其优缺点进行比较。

表1.AI芯片技术架构

2.AI芯片应用场景

2.1数据中心(IDC)

用于云端训练和推理,目前大多数的训练工作都在云端完成[9]。移动互联网的视频内容审核、个性化推荐等都是典型的云端推理应用。NvidiaGPU在训练方面一家独大,在推理方面也保持领军位置。FPGA和ASIC因为低功耗、低成本的优势,在持续抢夺GPU的市场的份额。

云端主要的代表芯片有Nvidia-TESLAV100、华为昇腾910、Nvidia-TESLAT4、寒武纪MLU270等。

2.2移动终端

主要用于移动端的推理,解决云端推理因网络延迟带来的用户体验等问题。典型应用如视频特效、语音助手等。通过在手机系统芯片(systemonchip,SoC)中加入增加协处理器或专用加速单元来实现。受制于手机电量,对芯片的功耗有严格的限制。代表芯片有AppleA12NeuralEngine(加速引擎)和华为麒麟990。

2.3安防

目前最为明确的AI芯片应用场景,主要任务是视频结构化。摄像头终端加入AI芯片,可以实现实时响应、降低带宽压力。也可以将推理功能集成在边缘的服务器级产品中。AI芯片要有视频处理和解码能力。主要考虑的是可处理的视频路数以及单路视频结构化的成本[10]。代表芯片有华为Hi3559-AV100和比特大陆BM1684等。

2.4自动驾驶

AI芯片作为无人车的大脑,需要对汽车上大量传感器产生的数据做实时处理[11],对芯片的算力、功耗、可靠性都有非常高的要求,同时芯片需要满足车规标准,因此设计的难度较大[12]。面向自动驾驶的芯片目前主要有NvidiaOrin、Xavier和Tesla的FSD等。

2.5智能家居

在AI+IoT时代,智能家居中的每个设备都需要具备一定的感知、推断以及决策功能。为了得到更好的智能语音交互用户体验,语音AI芯片进入了端侧市场。语音AI芯片相对来说设计难度低,开发周期短。代表芯片有思必驰TH1520和云知声雨燕UniOne等。

3.AI芯片关键技术和基准测试平台

3.1关键技术和挑战

(1)AI芯片当前的核心是利用乘加计算(multiplierandaccumulation,MAC)阵列来实现卷积神经网络中最主要的卷积运算的加速。MAC阵列的大量运算,会造成功耗的增加。很多AI应用的场景对于功耗都有严格的限制,如何达到优异的性能功耗比是AI芯片研发的一个重要目标。

(2)深度学习算法中参与计算的数据和模型参数很多,数据量庞大,导致内存带宽成为了整个系统的一个瓶颈“,MemoryWall”也是需要优化和突破的主要问题[13]。

(3)除了芯片本身硬件的设计以外,软件对于AI芯片性能的发挥也有着十分重要的作用,编译器和工具链软件的优化能力、易用性现在也得到越来越多的重视。

3.2基准测试平台

基准测试平台(Benchmark)为AI芯片建立了标准的评估体系,主要职责和意义有:

(1)基于调研和集群信息收集,真实反映AI芯片的使用情况。

(2)引入评估和选型标准。

(3)对AI芯片的架构定义和优化指引方向。基准测试平台的评估指标包括延时(ms)、吞吐量(ims/s)、能效比(ims/s/W)、利用率(ims/s/T)等。主要的基准测试台有MLPerf、DawnBench(Stanford)、DeepBench(百度)、AIMatrix(阿里巴巴)。

4.AI芯片未来趋势和探索

4.1神经形态芯片

神经形态芯片是指颠覆经典的冯·诺依曼计算架构,采用电子技术模拟已经被证明了的生物脑的运作规则,从而构建类似于生物脑的芯片[14]。

神经形态芯片的优点:

(1)计算和存储融合,突破MemoryWall瓶颈。

(2)去中心化的众核架构,强大的细粒度互联能力。

(3)更好的在线学习能力。清华大学、Intel、IBM等学校和企业都在做此方面的研究工作。

4.2可重构计算芯片

可重构计算芯片也叫做软件定义芯片[6],主要针对目前AI芯片存在的以下问题和任务需求:

(1)高效性和灵活性难以平衡。

(2)复杂的AI任务需要不同类型AI算法任务的组合。

(3)不同任务需要的计算精度不同。可重构计算芯片的设计思想在于软硬件可编程,允许硬件架构和功能随软件变化而变化,从而可以兼顾灵活性和实现超高的能效比。

5.云端和边缘侧AI芯片和应用

5.1云端和边缘侧AI芯片

本研究团队从2017年开始研发AI芯片,并在当年发售了第一代云端专用AI芯片BM1680。在2019年发布了第三代AI芯片BM1684。BM1684采用TSMC-12nm工艺,有17.6Tops的int8和2.2Tflops的float32算力,典型功耗为16W,可以支持32路1080P的高清视频解码。基于BM1684芯片,研发了深度学习加速板卡SC5(如图1所示)、高密度计算服务器SA5、边缘计算盒子SE5、边缘计算模组SM5等面向各种不同人工智能应用的产品。

图1.深度学习加速板卡SC5

5.2研发产品的应用

本团队的AI产品已经在云端和边缘侧的多种应用场景下落地使用,包括智慧园区(如图2所示)、城市大脑(如图3所示)、视频结构化、人脸布控、智能支付等。

图2.智慧园区解决方案

图3.城市大脑应用

6.结论

AI芯片行业尚处于起步阶段,已经有越来越多的项目开始落地和商业化,它的快速发展有助于推动整个人工智能产业的进展。本文对AI芯片的现状和未来可能的技术方向做了调研和分析,希望可以帮助读者更好地了解AI芯片行业,AI芯片拥有巨大的产业价值和战略地位,相信中国的科研机构和企业会努力抓住机遇,让中国的人工智能产业蓬勃发展。

文献引用:

安宝磊.AI芯片发展现状及前景分析[J].微纳电子与智能制造,2020,2(1):91-94.

《微纳电子与智能制造》刊号:CN10-1594/TN

主管单位:北京电子控股有限责任公司

主办单位:北京市电子科技科技情报研究所

北京方略信息科技有限公司

投稿邮箱:tougao@mneim.org.cn(网站:www.mneim.org.cn)

参考文献:

[1]LECUNY,BOTTOUL,BENGIOY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.

[2]KRIZHEVSKYA,SUTSKEVERI,HINTONGE.Imagenetclassificationwithdeepconvolutionalneuralnetworks[C]//Proceedingsofthe25thInternationalConferenceonNeuralInformationProcessingSystems.ACM,2012:1097-1105. 

[3]VINCENTP,LAROCHELLEH,BENGIOY,etal.Extractingandcomposingrobustfeatureswi-hdenoisingautoencoders[C]//Procofthe25thInternationalConferenceonMachineLearning.ACMPress,2008:1096-1103. 

[4]VINCENTP,LAROCHELLEH,LAJOIEI,etal.Stackeddenoisingautoencoders:learningusefulrepresentationsinadeepnetworkwithalocaldenoisingcriterion[J].JournalofMachineLearningResearch,2010,11(12):3371-3408. 

[5]施羽暇.人工智能芯片技术研究[J].电信网技术,2016,12(12):11-13.SHIYX.Researchonartificialintelligenceprocesschiptechnology[J].Telecommunicationnetworktechnology,2016,12(12):11-13.

[6]清华大学.人工智能芯片技术白皮书(2018)[R/OL].(2018-12-11)[2010-01-20].https://www.tsinghua.edu.cn/publish/thunews/9659/2018/20181217102627644168087/20181217102627644168087_.html.TsinghuaUniversity.2018WhitePaperonAIChipTechnologies[R/OL].(2018-12-11)[2010-01-20].https://www.tsinghua.edu.cn/publish/thunews/9659/2018/20181217102627644168087/20181217102627644168087_.html. 

[7]BENGIOY.LearningdeeparchitecturesforAI[J].FoundationsandTrendsinMachineLearning,2009,2(1):1-127. 

[8]HINTONGE.Learningdistributedrepresentationsofconcepts[C]//Procofthe8thAnnualConferenceoftheCognitiveScienceSociety.1986:1-12. 

[9]尹首一,郭珩,魏少军.人工智能芯片发展的现状及趋势[J].科技导报,2018,17:45-51.YINSY,GUOH,WEISJ.Presentsituationandfuturetrendofartificialintelligencechips[J].Science&TechnologyReview,2018,17:45-51. 

[10]汤炜伟.AI安防芯片的发展现状与前景分析[J].中国安防,2018,7:47-50.TANGWW.AnalysisofthedevelopmentandProspectofAIsecuritychip[J].ChinaSecurity&Protection,2018,7:47-50. 

[11]尹首一.人工智能芯片概述[J].微纳电子与智能制造,2019,2:7-11.YINSY.Overviewofartificialintelligencechip[J].Micro/nanoElectronicsandIntelligentManufacturing,2019,2:7-11. 

[12]谭洪贺,余凯.端侧AI芯片的挑战和展望[J].人工智能,2018,2:113-121.TANHH,YUK.ThechallengeandprospectofedgeAIchip[J].ArtificialIntelligence,2018,2:113-121. 

[13]邱赐云,李礼,张欢,等.大数据时代——从冯·诺依曼到计算存储融合[J].计算机科学,2018,45(2):71-75.QIUCY,LIL,ZH,etal.Ageofbigdata:fromvonneumanntocomputingstoragefusion[J].ComputerScience,2018,45(2):71-75. 

[14]赵正平.纳电子学与神经形态芯片的新进展[J].微纳电子技术,2018,55(1):1-5.ZHAOZP.Newprogressofnanoelectronicsandneuromorphicchips[J].MicronanoelectronicTechnology,2018,55(1):1-5

AI芯片:技术发展方向及应用场景落地

上海燧原科技AI处理器研发资深总监冯闯认为,在深度学习计算中,从顶层的软件框架、算子、设备驱动到底层的硬件AI处理器,软件的垂直整合一直深入到AI处理器的核心指令定义及架构,贯彻了自上而下的设计思路。为了达到极致性能,有些高频操作是需要在计算设备端进行的,比如大量的数据流调度、数据整形、同步、计算图流程处理等。所以系统的软硬件边界上移,深度学习软件栈的大部分操作可以直接运行在计算设备之上,这样能够大幅减少主机和端侧的同步开销和数据搬运开销,从而提供更好的性能。

冯闯

AI处理器研发资深总监

上海燧原科技

例如,燧原科技的通用AI训练芯片专为人工智能计算领域而设计,基于这种芯片的AI加速卡、燧原智能互联技术,以及“驭算”计算及编程平台可实现深度全栈集成,为编程人员提供针对性的加速AI计算。

AI领域对AI芯片的需求是硬件加速和内嵌于硬件的特定功能,以管理人工智能/机器学习(AI/ML)任务,同时需要一整套成熟的软件和工作流工具解决方案,以使开发人员和数据科学家能够专注于他们在应用方面的创新。AI处理器也需要有完整的软件栈,以便可以轻松地管理训练、测试、精度优化和部署。

此外,AI芯片也是一个计算平台,用来支撑城市管理、工业控制、自动驾驶和办公自动化等各个应用领域的计算。作为通用计算平台,AI芯片需要支持整个算力的生态,支持不同算法、不同软件应用的运行及部署,故而需要软件工具才能真正发挥出AI芯片的价值。

因此在设计AI芯片时,其内部架构会针对人工智能领域的各类算法和应用作专门优化,为常见的神经网络计算设计专用的硬件计算模块,以便高效支持视觉、语音、自然语言处理和传统机器学习等智能处理任务,使之更适合AI算法和AI应用。

除了硬件(处理器)本身,AI芯片的实际应用还涉及架构配套软件、开发工具等,需要考虑到主流的开发环境、用户使用习惯、不同操作系统、不同开发框架,保证软件易用性,以实现快速部署和系统集成。总之,AI芯片是一个软硬件一体的处理器,需要系统架构、软件工具和生态的支撑,才能更好的支持算法部署和应用场景落地。

指令集架构VS.数据流架构

AI芯片的设计架构有很多种,从底层计算机体系结构的角度来看,主要有指令集架构和数据流架构。指令集的发展相对较早,CPU、GPU及TPU的底层架构都是依托于冯诺依曼体系的指令集架构,其核心思路是将计算分为处理单元、控制单元、存储指令的指令存储器,以及存储数据的数据存储器。其中控制单元用于读取指令和数据,让处理单元完成整个计算过程。现代指令集架构引入了流水线处理、数据缓存、数据预取等多种架构创新,以不断降低由于数据和指令等待带来的计算资源闲置。但是,导致指令集架构计算空闲的核心问题并没有彻底解决,而且指令集架构不断提升的峰值算力也进一步加剧了指令集架构的闲置时间。

面向特定领域的应用,数据流架构开始发挥出高性能的优势。针对AI领域的算力平台需求,数据流架构依托数据流动方式来支持计算。据鲲云科技创始人兼CEO牛昕宇博士介绍,

牛昕宇博士

创始人兼CEO

鲲云科技

数据流架构不依托指令集执行次序,其数据计算和数据流动重叠,可以压缩计算资源的每一个空闲时间,突破算力性能瓶颈。与此同时,数据流架构通过动态重构数据流流水线,能够通用支持主流人工智能算法,满足计算平台的通用性要求。比如,鲲云近期发布的星空X3加速卡采用的就是定制数据流技术,其AI芯片利用率最高可达到95.4%。基于数据流架构的AI芯片可以突破指令集架构芯片的利用率局限性,在同等峰值算力前提下可提供更高的实测性能。

CAISA3.0架构图(来源:鲲云科技)

赛灵思(Xilinx)人工智能研发高级总监单羿则认为,无论哪种架构其实都是在引擎内部计算阵列和数据发射和存贮的组织方式,今天看来已经不是区分AI芯片架构的主要特征。AI芯片有一个非常通俗的理解,那就是大核还是小核。其区别在于,你是做一个或若干个大规模的单引擎,还是利用成百上千个小规模的引擎来提升计算的性能。

单羿

人工智能研发高级总监

赛灵思(Xilinx)

数据流架构的优势就是可以省掉不同的处理模块之间的缓冲,将多种运算单元进行级联处理。是不是可以把AI运算的所有运算单元全都变成一个数据流的架构?显然这是不现实的,因为深度神经网络层级是比较深的,很难把所有的运算都变成全数据流架构。根据赛灵思的工程设计经验,可以将一些层融合在一起变成数据流的架构,当作一个单元,进而复制到多层运算。

GPU、FPGA和ASIC(或DLA)的综合能效对比

当前主流的AI芯片主要有GPU、FPGA和ASIC(或深度学习专用加速器DLA)。图形处理器(GPU)基于多核的特性,由大量内核组成大规模并行计算架构,再配合GPU的软件生态支持人工智能开发。凭借丰富的软件生态系统和开发工具,再加上易于部署的特点,由英伟达主导的GPU在早期的人工智能计算中得到了大量采用,直到现在仍是最为普及的AI处理器。

据Imagination产品营销高级总监AndrewGrant称,GPU尤其适合AI训练或者运行计算工作负载。比如,Imagination的神经网络加速器(NNA)是专门针对乘累加(MAC)功能设计的,这对于神经网络工作负载而言是必不可少的。嵌入式GPU在运行神经网络任务方面比嵌入式CPU快10-20倍,且效率更高,而NNA可以比CPU快100-200倍,在性能方面又有10倍的提升。

AndrewGrant

产品营销高级总监

Imagination

FPGA(现场可编程门阵列)是一种半定制的电路硬件,其功能可以通过编程来修改,并行计算能力很强。可以针对不同的需求,在FPGA上实现多种硬件架构,在特定领域构建合适的加速单元来获得最优的处理效果。另外,FPGA在数据精度上是最灵活的,因为从比特级到4比特、8比特、半精度、全精度,这些都可以实现。尤其是在低比特的定点运算中,它会有更大的优势。

ASIC是面向特定应用需求而定制开发的芯片,通常具有更高的性能和更低的总体功耗。但是,ASIC不能适应快速变化的AI网络模型和新的数据格式,如果没有足够大的出货量可能难以抵消高昂的开发成本。在性能表现上,针对特定领域的ASIC芯片通常具有优势。如果出货量可观,其单颗成本可做到远低于FPGA和GPU。

像NNA或DLA这样的ASIC以超高效率运行AI任务为首要设计目标,要比其他替代方案快几个数量级,并且具有高能效比(TOPS/watt)。当以集群方式使用多个专用内核时,甚至可以提供高达500TOPS的运算能力。随着AI应用场景的落地,专用的ASIC芯片量产成本低、性能高、功耗低的优势会逐渐凸显出来。

下表简单地比较了FPGA、GPU和ASIC架构的性能、功耗和灵活性。

AI部署模式正在发生转变,它们不仅被部署于数据中心,而且越来越多地被部署在功耗和散热要求比较严格的边缘设备上。现在,每瓦功耗所提供的性能(或称为性能/功耗比)通常比简单的性能指标(TOPS)更为重要。随着AI算法的不断演进,网络模型和数据格式也在不断演化发展。GPU、FPGA和ASIC各有优缺点,因此都会在各自适合的AI应用场景找到用武之地。

人工智能和5G爆发对AI芯片设计的影响

AI和5G的爆发将为边缘AI芯片的应用与发展带来正向促进作用。得益于5G商用的推动,边缘计算需求增长,越来越多边缘服务器部署,人工智能在边缘侧的应用趋势也不断增强。5G大带宽、低时延的特点打破了以往由于网络带宽和速率的局限,使得对响应高计算量、毫秒级低时延的场景落地更加现实,比如车联网、智能制造、医疗等。

此外,5G的到来使得边缘和数据中心之间的界限变得更加模糊,计算处理任务分配会更合理,边缘端和云端更有机地结合。而且5G传输的损耗和延迟变小,我们可以做更多的应用,对云端AI芯片的使用效率也有更大的提升。

AI已经越来越多地融入我们的工作和生活,也开始创造一些真实的价值,比如通过AI对新冠疫情进行有效地控制。地平线联合创始人兼技术副总裁黄畅在采访中表示,地平线一直在思考如何在边缘做Al芯片及解决方案,以及如何让AI广泛落地。地平线最近发布了新一代AIoT边缘AI芯片平台—旭日3,其AI计算能力能够适应先进的神经网络。基于自主研发的AI专用处理器架构BPU(BrainProcessingUnit),旭日3芯片最大的亮点就是BPU优化,带来软硬协同的硬件架构。借助这一AI芯片平台,地平线将持续深化在AIoT领域的战略布局与行业场景渗透,发挥软硬结合优势,通过芯片工具链与全场景一站式解决方案赋能各个行业,更高效地落地AI应用,全面释放AI动能。

黄畅

联合创始人兼技术副总裁

地平线

AI和5G的普及也将AI芯片的应用场景扩展到工业领域。AndrewGrant列举出5G在智能工厂的用例,基于“机器人集群”方式对工业机器人进行管理。在这种方式中,指令可以从集群中心发送给机器人,也可以利用半联邦学习(semi-federatedlearning)方法在机器人之间传送。在使用机器人和数字孪生技术的智能工厂,货物拣选、包装和运输的每个环节都将实现自动化,同时计算机视觉任务与神经网络相结合可以支持机器人去识别、拣选、分类和包装所有类型的产品。此外,可以将机器人部署在人类不想去的地方,比如不太适合人类的3D(Difficult困难、Dirty肮脏、Dangerous危险)环境。在当前的疫情下,我们已经看到机器人和机器车深入参与到很多健康保障应用场景中,我们将越来越多地看到AI被广泛部署在医院和医疗保健领域。

从数据中心到边缘设备,人工智能应用场景的激增将推动AI芯片的设计向前发展,以实现更高的能效比,并提供硬件可编程性来支持各种工作负载。由于散热和功耗的限制,能效比在边缘上至关重要,其重要性远高于在数据中心中的应用。

随着人工智能被越来越多地部署在边缘位置,并与5G提供的实时处理能力相结合,市场将需要一种全新的AI芯片架构,它必须具有低功耗和可编程性。此外,它需要提供延迟极低的处理能力,并且每种设计的应用批量比以前更小。针对这些应用需求,Achronix开发出现场可编程且能够适应变化工作负载的Speedster7t系列FPGA芯片。

据Achronix公司产品营销总监BobSiller介绍,该FPGA芯片支持数据速率高达112Gbps的高速I/O,连接到高性能处理单元就可以满足边缘应用的低延迟和高确定性处理要求。此外,其内置的高性能机器学习处理器是带有本地内存的高速算术单元,用于存储AI算法所需的系数和权重。

BobSiller

产品营销总监

Achronix公司

5G和AI的发展都对算力提出了更高的需求,也对AI芯片架构和软件支持提出了越来越高的要求。更高性能、更低功耗、更小面积、更低成本永远都是芯片设计追求的目标。牛昕宇博士强调,峰值性能、功耗、芯片面积和成本这些指标除了与设计相关,更关键的影响因素是芯片采用的工艺。在同等芯片面积下,更先进的工艺明显有助于提升峰值性能和能效比,但这也同时会带来芯片开发成本的显著提升。鲲云科技采用了一条与众不同的技术路线,就是提升芯片的利用率。通过定制数据流架构把芯片利用率提升到95%甚至更高,在同样的工艺下可以给芯片带来更高的实测性能和更高的算力性价比。

AI芯片在云端和边缘端的发展瓶颈

在云端训练和云端推理计算领域,AI芯片发挥着巨大的加速作用。与此同时,它也面临着一些挑战。作为AI算力的主要应用场景,云端发展需要解决算力性价比与通用性问题。算力性价比决定了人工智能应用的部署成本,而算力通用性及软件生态决定着不同算法的迁移及开发成本。

提升算力性价比有两个方式,一方面可以通过提升芯片峰值算力获得,这需要大量资金投入不断迭代工艺制程;另一方面可以通过提升芯片利用率获得,在同等的峰值算力下发挥更高的实测性能。鲲云科技的牛昕宇博士认为,对于初创企业而言,通过底层架构创新大幅拉开芯片利用率差距,从而获得产品层面的竞争优势,是突破现有巨头竞争格局下算力瓶颈的一条有效道路。

云端计算芯片的算力提升时,功耗上升得非常快,容易遇到功耗墙。虽然芯片硬件规格上提供了澎湃算力,但是当被功耗墙频繁阻挡住时,客户所得算力也受限,因此能耗成为发挥芯片算力的瓶颈。燧原科技的冯闯认为,既要提高能耗比、又能够支持灵活多变的计算形式需求,这是AI芯片在发展过程中的很大挑战。

在云端训练方面,单个AI芯片因为散热问题而到了天花板,业界开始采用成百上千个GPU集群进行训练,但这又出现了多机多卡的通信效率问题。而在云端推理方面,面临的是单芯片的峰值算力问题。在功耗、访存带宽以及工艺限制情况下,效率怎样才能设计到最优?这就涉及到芯片的微架构改进,包括引擎内计算架构、并行的处理架构、层次化的存储能力等。

总之,对良好编程模型的支持、能耗比、算力性价比,以及灵活的计算形式支持,是针对云端AI训练的AI芯片发展路上必须要克服的瓶颈。

在边缘和终端这一侧,AI芯片所面临的挑战是它们会被部署在各种各样的应用环境中。芯片供应商通常会想方设法将成本和芯片面积最小化,其实他们更应该放眼未来,将灵活性和性能构建于自己的系统级芯片(SoC)中。此外,SoC外围的一些接口和模块需要和具体的场景相结合。例如,用在工业场景的芯片是很难用到自动驾驶的,而用在监控里的芯片跟前面两种又不一样。

即便在同一个垂直场景里,也需要考虑不同模块之间的任务负载均衡问题。赛灵思的单羿认为,FPGA因为有灵活可编程的优势,可以根据场景的持续需求调整这些模块之间的资源占用比例,从而达到全系统最优的效果。

ADAS/自动驾驶应用场景落地

AI芯片的落地意义在于依托于AI芯片,能形成有竞争力的人工智能解决方案。AI芯片的核心功能就是实现AI算法的计算加速,需要针对落地场景、算法精度、行业应用需求端到端打磨AI芯片及软件支持,深度融合AI芯片硬件及软件以支持人工智能方案落地。

在ADAS/自动驾驶应用场景下,AI芯片的核心价值就是实时处理行驶道路上的人、车、物等复杂环境的感知和决策。要处理来自不同传感器(激光雷达、摄像头、毫米波雷达等)所采集的多样化信息,AI芯片必须具有超高的算力和极致效能,因为这些信息的处理需要在非常高分辨率的情况下做大量计算,才能够把环境感知到足够准确。此外,这些感知和决策是和人的安全直接相关的,所以对精度和可靠性也有极高的要求。

到目前为止,在自动驾驶/ADAS场景中的AI和计算任务还都是在通用CPU/GPU上运行,而不是专用AI芯片。然而这一切将会改变,因为低功耗、高性能的嵌入式AI芯片将在ADAS所要执行的任务中带来出色表现,因为ADAS依赖于运行多个网络来高速、准确地提供数据驱动的决策。

正如地平线创始人兼CEO余凯的比喻,车载AI芯片其实就是智能化汽车的数字发动机,算力就好比智能汽车的脑容量,自动驾驶每往上提升一级,所需的芯片算力就要翻一个数量级。要实现完全自动驾驶,需要在四个轮子上搭载“天河二号”级别的计算能力。

以地平线已经大规模商用落地的车规级AI芯片——征程2为例,它基于软硬结合的创新设计理念,可提供4TOPS等效算力,典型功耗仅2瓦;而且具有极高的算力有效性,每TOPS算力可达同等算力GPU的10倍以上。该芯片现已应用于智能辅助驾驶、高级别自动驾驶、高精建图与定位,以及智能座舱等智能驾驶场景。

AI芯片遇到的技术难题在于灵活开放地匹配多样化上层应用。现在整车企业需要掌握越来越多的自主软件迭代开发能力,这时候AI芯片本身的开放易用性,完善的算法模型库,以及灵活易用性就变得非常重要。现今汽车软件的开发工作如此巨大,软件堆栈异常复杂,没有一家公司能单独完成所有软件的开发,而且主机厂都有开发差异化、个性化应用的需求。只有合作才能满足高效的迭代算法能力,把芯片算力和整体系统性方案发挥到极致。

智能语音应用场景落地

智能语音识别和处理应用对AI芯片的要求是低延迟,以及能够管理长/短期记忆网络(LSTM)和循环神经网络(RNN)所需的反馈回路。这意味着基于时间来接收信息,然后对其进行处理并添加含义。解包/展开(unpack/unroll)能力、存储状态和反馈回路意味着这类神经网络通常在云端使用,而现在则越来越多地用于边缘处理。

图像视频更多是使用卷积型的网络算法,这类运算其实有大量的数据复用空间。但对于语音识别而言,更多的是用RNFPM模型,这类模型更像是传统的矩阵运算,它会对外部的存储和带宽要求高一些,而数据复用的机会实际上是比较少的。

在语音识别和处理的应用场景里,神经网络可能只占其中的一半,这时只用一个AI芯片是不够的,还需要关注前后处理的模块。此外,语音处理在数据精度上要求更苛刻,很难全部用8比特的定点来表达数据格式,获得足够高的准确率,所以在数据精度上像8比特、16比特甚至半精度的点都需要支持。

智能视觉应用场景落地

在智能视觉场景中,AI芯片可以非常好地与多种特定应用的算法协同工作。采用带有成熟软件和开发工具的AI芯片,应用开发人员在将应用算法部署到目标之前,就可以使用线下工具来对其进行优化。随着新零售、机器人、安防等应用的发展,业界也在开发软件工具来提供支持,以便可以将框架或新型神经网络方面的进展分解为多个构成要素并由AI芯片有效地运行。

如何实现软硬协同,将AI芯片与特定应用的算法相结合是一个比较有挑战性的问题。以赛灵思为例,他们自己的算法团队可以不断地利用公开的数据集以及客户需求,针对像数据中心、安防、自动驾驶、机器人以及医疗这些应用场景,去做一些模型训练。

以激光雷达为例,他们大概花了三个月进行密集开发,把点云的检测和分割,从算法训练到模型编译,到软件部署,再到硬件的设计,做了全流程端到端的实现。在这个过程中,他们发现之前为ADAS里面Camera所准备的GPU不能很好的满足激光雷达这个领域的应用。所以需要做很多硬件上甚至AI芯片架构上的修改,同时还要做一些软件算法和硬件相结合的协同设计才能获得比较理想的落地效果。

作者:顾正书

本文为EET电子工程专辑原创,如需转载,请留言返回搜狐,查看更多

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇