AMD数据中心和人工智能技术首映式说了些什么
0分享至云原生上一代型号:第四代AMDEPYC“Genoa”参数:96核Zen4,5nm制程,PCIe5.0总线,支持CXL内存扩展,12通道DDR5优势:云服务cpu:第四代GenAMDEPYC9654的2PInteger吞吐量表现是英特尔第四代XeonPlatinum8490H的1.8倍企业级cpu:第四代GenAMDEPYC9654的2PEnterpriseServer-SideJava表现是英特尔第四代XeonPlatinum8490H的1.7倍,2PVMmark3.1.1上的表现是1.7倍,2PSAPSalesandDistribution上的表现是1.9倍效率:第四代GenAMDEPYC9654的2PEnergyEfficiency表现是英特尔第四代XeonPlatinum8490H的1.8倍CPUAI:第四代GenAMDEPYC9654的TPCx-AI表现是英特尔第四代XeonPlatinum8490H的1.9倍企业表现:Amazon:较可比的其他x86架构实例节省10%成本,已经部署超过100个基于AMDEPYC的AmazonEC2,表现较可比的其他x86架构实例提升65%。AmazonEC2M7a实例较M6a实例计算表现提升50%Oracle:宣布采用”Genoa”支持其E5服务器(测试结果较E4提升33%)新产品:第四代AMDEPYC“Bergamo”专为云上工作服务参数:至多128核Zen4c,一致的x86ISA,820亿晶体管,最大的vCPU密度,最佳能耗表现Zen4c:台积电5nm工艺,core+L2面积2.48平方毫米(Zen4:3.84平方毫米),减少了35%的面积Zen4c加持的Bergamo可以加装8个CCD,每个CCD16核,与Genoa完全可替换优势:Container密度:第四代GenAMDEPYC9754的container密度是英特尔第四代XeonPlatinum8490H的2.1倍,达到了30/Server效率:第四代GenAMDEPYC9754的2POverallServer-SideJava上的表现是英特尔第四代XeonPlatinum8490H的2倍已经出货进入量产企业表现:Meta:在Facebook、Whatsapp和AI业务的服务器均匀用了AMD的CPU以满足不断增长的需求,将把Bergamo用在Meta的下一代大规模通用平台上。TechnicalComputing第四代3DV-CacheTechnology支持的AMDEPYC“Genoa-X”参数:Zen4高性能内核,至多1.1GBL3Cache,SP5SocketCompatibility,AMDInfinityGuard优势:有限元分析核计算流体力学:顶配版本:第四代GenAMDEPYC9684X96核的OpenFOAM上的表现是英特尔第四代XeonPlatinum8490H60核的2.2倍;AnsysFluent上的表现是2.9倍,在测试软件上的表现均超过2倍32核版本:第四代GenAMDEPYC9684X96核的OpenFOAM上的表现是英特尔第四代XeonPlatinum8490H60核的2倍;AnsysCFX上的表现是1.8倍,在测试软件上的表现均超过1.8倍企业表现:Microsoft:AMD3DV-Cache加持的AzureHBv3-series为客户提供了较前代HBv3-series80%的性能提升;即将推出AzureHBv4/HX-series,在不同的应用上均得到大幅提升。平台的能力在Petronas的减碳计划和STmicro的芯片设计得到了很好的验证。WorkloadoptimizeddatacenterAMDP4DPUarchitecture企业表现:citadel:一方面构建了大模型来计算研究以预测市场,另一方面需要构建尽可能快速的交易系统应对市场信息变化。过去在AMD产品的加持下研究表现有了35%的提升,在快速交易系统方面,citadel使用的是赛灵思的FPGA。挑战:1.虚拟化的开支2.大规模的网络复杂度3.资源管理4.安全AMD的应对:AMDP4DPUarchitecture提供世界上最智能的DPU,完全可编程的控制、数据和管理方案,P4引擎针对处理和管理信息流做了优化,支持千万级别的网络信息流;AMDPensandoSmartNICs减少了云的开支,增强了安全性和可视性,使得大范围基础设施服务减负,因此在大量的公共云中得到运用;P4DPU可以为交换机有效减负AMDAIPlatformsAI产业目前市场规模约300亿美元,预计2027年达1500亿美元,CAGR超过50%。AMDAI生态:ROCm:数据中心GPUZenDNN:数据中心CPUVitisAI:边缘和终端软件:ROCm:优化的AI软件堆栈:1.ROCm5:泛用的数据中心优化套件2.即用的先进模型和框架3.搭建了开放的可迁移的AI生态企业表现:PyTorch:PyTorch是世界上最受欢迎的机器学习框架之一,在搭建框架的过程中,PyTorch和AMD的工程师进行了紧密的合作,使得ROCm极好的运行了PyTorch,使得AI模型从其他平台迁移到AMD的AI平台的难度降低了。HuggingFace:与AMD宣布建立合作,平台拥又超过500000个开源模型、数据库等,仅仅上一周,就新增了超过5000个新模型。AI已经成为和行各业的基础设施,要通过合作,更好的将软件和硬件能力结合,更好地训练模型。硬件:1.新一代AIacceleratorarchitecture:AMDInstinctMI300A参数:AMDCDNA3架构;基于Zen4的24核CPU;128GBHBM3;5nm和6nm的制程;CPU和GPU共用统一内存;超过1460亿晶体管,运用了13个chiplets2.AMDInstinctMI300X:移除AMDInstinctMI300A上的CPUchiplets替换成纯GPUchiplets参数:AMDCDNA3架构;192GBHBM3;5.2TB/s内存带宽;896GB/sInfinityFabric带宽;1530亿晶体管;5nm和6nm制程;12个chiplet。优势:较英伟达H100:至多2.4倍的HBM密度,1.6倍的HBM带宽3.AMDInstinctPlatform:参数:8个MI300X;1.5TBHBM3内存;工业级标准化设计优势:1.相较AI工作量而言领先的TCO2.易于部署至工业标准化平台3.已为企业准备好的软件堆叠MI300A已在样产,MI300X预计三季度样产。本文源自券商研报精选特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.
/阅读下一篇/返回网易首页下载网易新闻客户端