博舍

英伟达、AMD断供高端GPU芯片,对国内有哪些影响国产GPU怎么样了 英伟达人工智能显卡都有哪些

英伟达、AMD断供高端GPU芯片,对国内有哪些影响国产GPU怎么样了

8月的最后一天,全球两大GPU厂商AMD和英伟达证实,相继收到美国政府通知,对中国区客户断供高端GPU芯片。

据AMD中国区收到的通知显示,要求该公司暂停对中国区所有数据中心GPU卡MI100和MI200发货;统计中国区Ml100已发货量;统计中国区MI200已发货客户清单和发货明细。AMD分析可能是美国政府要限制对中国区高性能GPU卡的销售,尤其是针对中国高性能计算(HPC)的双精度(FP64)高性能卡。

AMD的一位发言人透漏,虽然被要求限制向中国出口其MI250人工智能芯片,但相信其MI100芯片不会受到影响。“目前,我们认为MI100集成电路的出货量不会受到新规的影响。”AMD在其一份声明中称。

而英伟达则在8月31日向美国证券交易委员会(SEC)提交的一份文件显示,美国政府在8月26日通知该公司,未来若要出口A100和H100芯片至中国(包含中国香港)及俄罗斯,必须先向美国政府申请出口许可且即刻生效。据悉,此举目的是为了降低此类芯片被用于”军事用途“或转移到中国和俄罗斯的”军事最终用户”的风险。

这一决定可能会影响英伟达Hopper架构的开发,因为这一新要求或许被迫让该公司将“某些业务”转移出中国。英伟达可能会损失约4亿美元的潜在销售收入。

英伟达在SEC文件中披露,计划申请豁免,但“不保证”美国官员会批准。他们正与中国客户接触,以满足他们计划或未来购买替代产品的需求,并会在替代产品不足的情况下寻求许可。

外交部回应

9月1日,路透社记者在外交部例行记者会上提问称,美方已要求两家美国公司停止向中国出口用于人工智能工作的两种顶级计算芯片,这可能会严重限制中方开展图像识别等工作的能力。中方对此有何评论?

汪文斌对此回应称,美方的做法是典型的科技霸权主义,美方一再泛化国家安全概念,滥用国家力量,企图利用自身科技优势遏制打压新兴市场和发展中国家发展,此举违反市场经济规则,破坏国际经贸秩序,扰乱全球产业链供应链稳定。中方对此坚决反对。

汪文斌表示,美方将科技和经贸问题政治化、工具化、武器化,搞技术封锁,技术脱钩,妄图垄断世界先进科技,维护自身科技霸权,破坏全球紧密合作的产业链和供应链,注定以失败告终。

商务部回应

在9月1日的商务部的例行发布会上,有记者问:8月31号美国芯片设计公司英伟达称被美国政府要求限制向中国出口两款被用于加速人工智能任务的最新两代旗舰GPU计算芯片A100和H100。请问商务部对此有何评论?

对此,商务部发言人束珏婷表示,中方注意到相关情况。一段时间以来,美方不断滥用出口管制措施,限制半导体相关物项对华出口,中方对此坚决反对。美方相关做法背离公平竞争原则,违反国际经贸规则,不仅损害中国企业的正当权益,也将严重影响美国企业的利益,阻碍国际科技交流和经贸合作,对全球产业链供应链稳定和世界经济恢复造成冲击。美方应立即停止错误做法,公平对待包括中国企业在内的各国企业,多做有利于世界经济稳定的事。

英伟达CEO回应

据微博博主“手机晶片达人”爆料,英伟达CEO黄仁勋的内部邮件证实了美国商务部对销售给中国和俄罗斯的A100及H100GPU提出的限制要求。

同时表示,英伟达会立即与中国客户协商,寻找最佳替代品以配合他们的要求,或寻求其他技术许可。但是,对于全面发挥A100性能来处理工作负载的客户,替代品可能达不到想要的效果。不过,对于大多数客户来说,他们仍会要求用替代品以维持原来的服务。

我意识到这种限制是在一个已经充满挑战的环境下出现的,感谢大家尽最大努力遵守新的许可证要求,为我们的客户服务,我有信心我们能一起度过这个难关。

什么是GPU?

GPU的英文名称是GraphicProcessingUnit,除了在图形数据处理方面具有优势之外,在复杂的并行计算方面也是优势明显,因此近年来也被广泛的用于服务器端的密集型数据处理。此次美国要求AMD及英伟达断供中国的正是针对数据中心的高端独立GPU计算卡,目前此类高端GPU计算卡主要被应用于云端的AI(人工智能)模型训练和执行推理。

从全球GPU整体市场格局来看,英特尔得益于在笔记本电脑及传统PC行业的优势,一直是集成GPU市场的龙头,市场份额高达68.30%。但是,在独立显卡市场,则主要由英伟达和AMD两家公司垄断。据了解,随着GPU自身在并行处理和通用计算的优势,逐步拓展了其在服务器、汽车、矿机、人工智能、边缘计算等领域的衍生需求。

图:GPU市场的整体增长情况

得益不断增加的行业需求和逐渐渗透的新领域,GPU市场一直稳步成长。据数据统计,2020年,GPU行业规模为200亿美元。从2015年到2025年,GPU行业预计平均每年增长13%,将从80亿美元扩展到350亿美元的规模。

当前,GPU行业市场主要由英伟达和AMD两家占据。GPU行业市场份额上来看,AMD独显份额为17%,英伟达则增长到了83%。

虽然近两年英特尔推出了Xe系列独立显卡,但目前销量仍相对有限,预计其最新的市场份额可能仍在5%以下。同样,在面向数据中心的高端独立GPU市场,也几乎是由英伟达和AMD两家垄断。

要被断供的A100和H100有多强悍?

英伟达A100TENSORCOREGPU

相比于英伟达前一代的VoltaGPU,A100的性能提升了20倍,非常适合于人工智能、数据分析、科学计算和云图形工作负载。该芯片由540亿个晶体管组成,打包了第三代Tensor核心,并具有针对稀疏矩阵运算的加速功能,对于AI推理和训练来说特别有用。此外,每个GPU可以划分为多个实例,执行不同的推理任务,采用NvidiaNVLink互连技术可以将多个A100GPU用于更大的AI推理工作负载。

然而,这些在H100出现之后显得略有不足了。在今年春季的发布会中,黄仁勋发布了面向高性能计算(HPC)和数据中心的下一代Hopper架构,搭载新一代芯片的首款加速卡被命名为H100,它就是A100的替代者。

2022CTC大会H100发布

H100是一款针对大模型专门优化过的芯片,使用台积电5nm定制版本制程(4N)打造,单块芯片包含800亿晶体管。同时也是全球首款PCI-E5和HBM3显卡,一块H100的IO带宽就是40terabyte每秒。

Transformer类预训练模型是当前AI领域最热门的方向,英伟达以此为目标专门优化H100的设计,提出了TransformerEngine,集合了新的TensorCore、FP8和FP16精度计算,以及Transformer神经网络动态处理能力,可以将此类机器学习模型的训练时间从几周缩短到几天。

针对服务器应用,H100也可以虚拟化为7个用户共同使用,每个用户获得的算力相当于两块全功率的T4GPU。此外,H100还实现了业界首个基于GPU的机密计算。

基于Hopper架构的H100,英伟达还推出了机器学习工作站、超级计算机等一系列产品。8块H100和4个NVLink结合组成一个巨型GPU——DGXH100,一共有6400亿晶体管,AI算力32petaflops,HBM3内存容量高达640G。

与此同时,得益于与Equinix(管理全球240多个数据中心的全球服务提供商)的合作,A100和H100的新型GPU通过水冷方式来节省用户的能源成本。使用这种冷却方法最多可以节省110亿瓦时,可以在AI和HPC推理工作中实现20倍的效率提升。

今年5月份,英伟达曾开源了LinuxGPU内核模块代码,未来是否还会有更多开源计划,暂未可知。

指向中国超算

北京半导体行业协会副秘书长朱晶表示,根据消息,被封锁的产品是有足够双精度计算能力的高端GPU,对于低端GPU不受影响。具备较高双精度计算能力的高端GPU主要用于高性能计算领域,包括科学计算,CAE(计算机辅助工程),医疗等方面。

超算中心即国家超级计算中心,由数千甚至更多处理器组成,具备超高算力,被誉为“计算机中的珠穆朗玛峰”,主要满足国家高科技领域和尖端技术研究的需求。

相比之下,普通的数据中心面向所有需要信息技术支撑的场景,包括大量互联网应用。中国的电信运营商、互联网公司都自建数据中心。朱晶表示,企业级数据中心经常采购NVIDIA消息中的A100、H100产品,这些产品都是有足够双精度计算能力的高端GPU,上述断供行为如果落实,造成的波及范围会比较大。

过往来看,美国已经对中国超算三次“动手”,2015年中国“天河二号”项目相关的4家中国机构被美国列入“实体清单”;2019年,海光、中科曙光、无锡江南计算技术研究所等5家进入实体清单;2021年,飞腾,申威等7家超算机构进入实体清单。

朱晶表示,从上述历程可以看出,对于中国超算,美国从打击方式到范围来看都是升级的。如若消息属实,这次的打击方式将是从“超算相关单位进入实体清单”升级为“可为超算提供服务的相关产品直接禁售”,导致受影响的范围从超算领域扩大到互联网领域。对高端GPU的断供,看似依然是对中国超算和智能计算的进一步封锁,但波及范围已经远远放大,并且技术点的断供还要考虑对上下游的牵连。

对我国有哪些影响?

据JonPeddieResearch总裁JonPeddie表示:“与上一季度相比,本季度GPU供应商的总体业绩不佳。诸如俄乌冲突、西欧的天然气供应等全球性事件,以及这些事件随后造成的紧张情绪都对欧洲经济造成了抑制;英国正处于高通胀的衰退之中。”

不过,美国得以通过了一些重要的立法,例如学生贷款减免、更强有力的气候控制法案,其中包含大量替代能源条款,以及长期寻求的CHIPs法案。这些刺激措施和基础设施投资将使美国在未来十年甚至更长时间内处于更有利的地位。

如上所述,鉴于消费类的中低端PCGPU出货量降温,如果AMD及英伟达对中国大陆断供面向数据中心的高端GPU计算卡,将对于中国大陆的云计算产业及人工智能产业发展带来极为不利的影响。而美国此举似乎也正是为了打压中国大陆在人工智能领域的对美国的优势。

不过目前来看,对消费电子领域的影响并不严重。除了这两家的芯片,还有像高通、联发科、三星等芯片可用。

企业数据成本或暴增3倍

业内人士表示,此次针对双精度计算能力的高端GPU芯片禁售,类似于美国断供14nm以下设备,3nmGAA工艺的EDA工具,或全面封杀中国高端芯片产业。

互联网企业在计算数据中心整体成本支出时,在高端产品上,一次性购买成本、机架占位/人工服务费(运维)、电费三者所占比重大约为3:3:4,如果按照传闻所言,英伟达今年发布的最先进的4nm工艺的H100被禁,只能采用12nm的V100产品,考虑到增加的机架费用、功耗增加所带来的电费,整体而言将超过3倍的支出,如果再考虑到3-5年的运营周期,成本上将高出许多。

“而如果在超算领域,电费约占运营费用的七成以上,整体成本支出也会变得更加昂贵。”该人士表示。

智能计算

但是,大多数国内服务器离不开这两家都芯片。显然,美国的这番断供就是冲着算力去的,目的就是阻碍中国在人工智能领域领先世界。

建设强大的智算中心就需要高端GPU,如果没有智算,智慧交通、智慧城市、工业互联等众多领域都会受到影响。

因此,芯片断供将会直接影响国内的云计算产业及人工智能产业的发展。

根据6月份最新全球超算TOP500榜单,排在前十的超算中基本上都用到了AMD、英伟达、英特尔的处理器或技术。

其中,中国神威·太湖之光超级计算机用的是我们自主研发的神威26010众核处理器。天河二号超级计算机则是使用基于英特尔集成众核架构的XeonPhi31S1P协处理器。

因此,断供AMD和英伟达对我国最有影响力的两大超算并未造成影响。

然而,对于国内提供服务器的企业来讲,就不那么幸运了。服务器都是企业用得多,比如数据中心、云计算。

目前,国内像阿里等公司都在开始自研云原生处理器,这是值得肯定的。

元宇宙

要知道,GPU是元宇宙核心计算资源的底座。未来,元宇宙市场规模或超4700亿美元。

元宇宙中有大量的程序需要计算,构成元宇宙的虚拟内容、区块链网络、人工智能技术都离不开算力的支撑。

没有强大的算力支撑,元宇宙就如同空中楼阁。

因此,元宇宙中更加真实的建模与交互需要更强的算力作为前提,更加说明我们自研GPU的重要性。

AI大模型

另外,如果没有英伟达和AMD等公司的芯片,国内在图像、语音识别以及其他机器学习方面的任务也将受到严重的影响。

2020年大火的GPT-3参数规模达到1750亿,而且,其训练数据集规模也超过500GB。

训练这么大的AI模型,必然会吃很大的算力,仅GPT-3就消耗了10000块GPU,花了30天才完成。

那么,断供高端GPU将如何影响国内AI模型的训练呢?

拿英伟达A100来举例,它的深度学习性能在2021年的实测中可达V100的3.5倍。而在最新的AI芯片跑分大赛结果中,A100打破了16项性能纪录。

相比于「只有」540亿个晶体管的前辈A100,英伟达在H100中装入了800亿个晶体管,并采用了定制的台积电4nm工艺。

在算力上,H100的FP16、TF32以及FP64的性能都是A100的3倍,分别为2000TFLOPS、1000TFLOPS和60TFLOPS。此外,H100还增加了对FP8的支持,算力高达4000TFLOPS,比A100快6倍。

在AI训练中,如果采用H100来训练GPT-3的话,就可以将速度提升6.3倍,如果结合新的精度、芯片互联技术和软件,则可以提升至9倍。

此外,在新的Hopper架构加持下,大型模型的训练可以在数天甚至数小时内完成。

其中,TransformerEngine可以用2倍于FP16的速度打包和处理FP8数据,于是模型的每一层可以用FP8处理的数据都可以提升2倍的速度。

如果美国真的对高端GPU断供,国产GPU是否有可行的替代方案呢?

国产GPU准备好了吗

近几年,国内GPU企业受到空前关注。老牌CPU厂商如龙芯、海光等均实现上市,且在GPU领域寻求突破,龙芯中科自研GPU已首度亮相,海光的DCU(GPGPU)也逐渐打出知名度,此外,也涌现出一批颇具知名度的初创GPU企业。

百度等互联网企业已经发布自研AI超算芯片产品,但存在与原CUDA生态的兼容问题,需要投入较长时间完善。海光DCU8系列Z100产品数据接近英伟达的MI100产品,同时兼容CUDA生态,被广泛看好。

近年来,随着中美贸易关系持续恶化,美国对中国半导体产业发展持续打压,以及在国产替代的大趋势以及资本的助力之下,涌现出了一大批国产GPU厂商,我国的GPU国产化进程也正在加速。

景嘉微:国内首家实现自主研发国产化GPU并产业化的企业。为打破ATI公司(现已被AMD收购)M9芯片在军用图形显控领域的长期垄断,该公司历经多年技术钻研,于2014年成功研制国内首款高性能GPU芯片JM5400,实现军用GPU国产化。2018年8月公司成功研发第二代图形处理芯片JM7200,并于2020年陆续完成与国产化设备的适配工作,逐步向通用领域拓展。2021年12月,公司正式发布第三代图片处理芯片JH920。该芯片在产品性能和工艺设计上较前两代产品大幅提升的同时,也为国产化GPU在人工智能、信息系统等领域带来新的突破。

芯动科技:该公司是中国一站式IP和芯片定制领军企业,为台积电、三星、英特尔、格芯、中芯国际和联华电子六大工艺厂提供130nm到5nm全套高速混合电路IP核和ASIC定制解决方案。2021年,公司发布首款国产高性能4K级显卡GPU芯片“风华1号”,自带浮点和智能3D图形处理功能,全定制多级流水计算内核,可实现高性能渲染和智能AI算力,AI性能为25TOPS(INT8),适用于元宇宙、云游戏、云桌面、AI计算等领域;2022年8月,公司推出了“风华2号”系列GPU,这是一款集超低功耗、强渲染、4K高清三屏显示、4K视频解码及智能AI计算于一体的桌面和笔记本GPU,实现了多个自研技术的创新突破。

龙芯中科:2020年,公司成立GPU突击队,加快GPU产品的研发设计。目前,公司自主研发的GPU集成在7A2000桥片中。龙芯7A2000是面向服务器及个人计算机领域的第二代龙芯3号系列处理器配套桥片,在7A1000基础上实现全面的优化升级。此外片内首次集成了自研GPU,采用统一渲染架构,搭配32位DDR4显存接口,最大支持16GB显存容量。

天数智芯:公司成立2015年12月,2018年正式启动GPGPU芯片的设计研发工作,是国内首家GPGPU高端芯片及超级算力提供商。2021年3月,公司发布了国内首款通用GPU——天垓100芯片及天垓100加速卡。天垓100为天数智芯自主研制7纳米GPGPU高端自研云端训练芯片,具有全方位生态兼容、高性能有效算力、指令集编程架构以及软硬件全栈支持等优势。2022年4月,天数智芯宣布,其首款通用GPU天垓100及天垓100加速卡自发布以来,累计获得的订单金额已经接近2亿元,成为中国唯一量产的通用GPU产品。

壁仞科技:公司创立于2019年,致力于研发原创性的通用计算体系,其发展路径是首先聚焦云端通用智能计算,逐步在人工智能训练和推理、图形渲染、高性能通用计算等多个领域赶超现有解决方案,实现国产高端通用智能计算芯片的突破。2022年8月9日,壁仞科技发布首款通用GPU芯片BR100、自主原创架构壁立仞、OAM服务器海玄,以及OAM模组壁砺100,PCIe板卡产品壁砺104,自主研发的BIRENSUPA软件平台。据介绍,BR100芯片创出全球算力纪录(其INT8算力达2048TOPS,BF16算力达1024TFLOPS,TF32+算力达512TFLOPS,FP32算力达256TFLOPS),峰值算力达到国际厂商在售旗舰产品3倍以上,创下国内互连带宽纪录,还是国内率先采用Chiplet技术、率先采用新一代主机接口PCIe5.0、率先支持CXL互连协议的通用GPU芯片。

摩尔线程:公司成立于2020年10月,致力于研发全球领先的自主创新GPU知识产权,其GPU产品线覆盖通用图形计算和高性能计算。公司核心成员主要来自KVIDIA、微软、Intel、AMD、ARM等全球知名芯片企业,覆盖GPU研发设计、生产制造、市场销售、服务支持等完整架构。已发布4096核服务器GPU和桌面GPU。

沐曦集成电路:公司成立于2020年9月,致力于打造全栈高性能GPU芯片产品,推出MXN系列GPU(曦思)用于AI推理,MXC系列GPU(曦云)用于科学计算及AI训练,以及MXG系列GPU(曦彩)用于图形渲染,满足数据中心对“高性能”、“高能效”及“高通用性”的算力需求。沐曦产品均采用完全自主研发的高性能GPUIP,拥有完全自主的指令集和架构,配以兼容主流GPU生态的完整软件栈(MACAMACA),具备高性能、高效能和高通用性的天然优势,能够为客户构建软硬件一体的全面生态解决方案。2022年7月,沐曦集成电路宣布完成10亿人民币Pre-B轮融资。

砺算科技:公司成立于2021年8月,由拥有超20年主导GPU芯片研发的行业领军专家创立,宣称研发真正国产替代TrueGPU,主要专注于自研架构、自有知识产权,正在打造对标国际主流产品的国产首款6nmGPU芯片,服务国内1800亿渲染GPU全方位市场,实现端、云、边的高性能图形渲染。2022年2月,砺算科技宣布完成数亿元天使轮融资。

芯瞳半导体:公司成立于2019年12月,主要业务包括GPU芯片设计、异构计算平台方案、嵌入式显示系统解决方案、GPU应用部署解决方案。公司GPU架构采用了业界主流的统一渲染架构,并具有高度可扩展的互联结构和计算阵列。

好利科技:公司作为国内电路保护元器件龙头企业,于2022年5月正式宣布通过曲速科技,开始布局GPU领域。公司第一款GPU芯片主要瞄准高性能计算领域,主要合作客户包括互联网公司、运营商和数据中心等。

目前绝大多数都还是处于发展初期,仅景嘉微在图形GPU领域取得了一些成绩,但与NVIDIA、AMD的独立显卡仍有较大差距。而在此次断供的面向数据中心的高性能计算GPU领域,仅天数智芯、壁仞科技和芯动科技有推出相应的产品。其中,壁仞科技的BR100官方公布的AI算力性能已经是超过了NVIDIAA100(BF16和INT8算力最高分别为624T、1248T),不过,由于目前该产品刚刚推出,所以仍需要市场来检验。

另外,除了这类通用GPU之外,国内也有很多的AI芯片厂商也有针对数据中心推出了一系列的AI芯片/加速卡,比如阿里巴巴、百度、燧原科技、寒武纪、华为等等,国产这条自研路仍任重道远。

来源:环球网、芯智讯、新智元等网络内容综合

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇