新视频:什么在运行 ChatGPT
几年前,NVIDIA创始人兼首席执行官黄仁勋亲自交付了世界上第一台NVIDIADGXAI系统到OpenAI。至今,OpenAI的ChatGPT已经在全球范围内大受欢迎,这凸显了人工智能(AI)以及如何将其应用于各行各业,无论是小型企业还是大型企业。
现在,你有没有停下来思考一下托管和支持ChatGPT所需的技术和基础设施?
在这段视频中,微软Azure首席技术官MarkRussinovich解释了他们专门构建的人工智能超级计算机基础设施背后的技术堆栈。它是由NVIDIA、MicrosoftAzure和OpenAI合作开发的,用于托管ChatGPT和其他大型语言模型(LLMs)以任何规模。
主要收获NVIDIAH100TensorCoreGPUs的数据并行方法使推理性能提高了30倍,模型训练性能提高了4倍。满足LLM的更高处理要求,虚拟机可以使用NVIDIAQuantum-2InfiniBand联网进行扩展。大规模训练不可避免地会出现服务器故障和网络故障。微软的ProjectForge引入了透明的检查点,以快速恢复工作并在全球范围内保持高水平的利用率处理亿级参数模型时,可以参考大型语言模型、提示工程和P-Tuning的介绍。Wayve等行业先驱正在利用人工智能超级计算机基础设施来实现计算密集型工作负载。即将提供的支持机密计算可以在Azure上使用NVIDIAH100GPU,有助于保护敏感数据,保护正在使用的有价值的人工智能模型,实现人工智能的安全多方协作用例。视频1.什么在运行ChatGPT?微软人工智能超级计算机内幕|马克·鲁西诺维奇
总结当训练具有数千亿参数的人工智能模型时,高效的数据中心基础设施是关键:从提高吞吐量和最大限度地减少服务器故障,到利用多GPU集群进行计算密集型工作负载。
有关优化数据中心基础架构以可靠地大规模部署大型模型的更多信息,请参阅以下资源:
NVIDIAAIplatform:通过从计算到软件、人工智能模型和服务的全栈创新,使AI开发更容易。ModernDataCenters:了解IT领导者如何扩展和管理数据中心,以轻松实现NVIDIAAI的采用。H100TensorCoreGPU:结合技术创新,LLM比上一代性能提升了30倍。NVIDIANeMo:可以帮助您的企业构建、自定义和部署LLM,以增强生成式AI应用程序。NVIDIAQuantumInfiniBand平台