博舍

人工智能训练平台 人工智能语言训练系统设计图解大全图片

人工智能训练平台

人工智能训练平台

1、平台定位

为深度学习提供一个深度定制和优化的人工智能集群管理平台,让人工智能堆栈变得简单、快速、可扩展。●为深度学习量身定做,可扩展支撑更多AI和大数据框架通过创新的AI平台运行环境支持,几乎所有深度学习框架如CNTK、TensorFlow、PyTorch等无需修改即可运行;其基于Docker的架构则让用户可以方便地扩展更多AI与大数据框架。●容器与微服务化,让AI流水线实现DevOpsAI平台100%基于微服务架构,让AI平台以及开发便于实现DevOps的开发运维模式。●支持GPU多租,可统筹集群资源调度与服务管理能力在深度学习负载下,GPU逐渐成为资源调度的一等公民,AI平台提供了针对GPU优化的调度算法,丰富的端口管理,支持VirtualCluster多租机制,可通过LauncherServer为服务作业的运行保驾护航。●提供丰富的运营、监控、调试功能,降低运维复杂度PAI为运营人员提供了硬件、服务、作业的多级监控,同时开发者还可以通过日志、SSH等方便调试作业。

2、系统架构

AI平台的架构如下图所示,用户通过WebPortal调用RESTServer的API提交作业(Job)和监控集群,其它第三方工具也可通过该API进行任务管理。随后WebPortal与Launcher交互,以执行各种作业,再由LauncherServer处理作业请求并将其提交至HadoopYARN进行资源分配与调度。可以看到,AI平台给YARN添加了GPU支持,使其能将GPU作为可计算资源调度,助力深度学习。其中,YARN负责作业的管理,其它静态资

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇