课程 ID: 19166
描述:
话题概述:
在AI领域,kubernetes已经逐渐成为算力集群的标准化解决方案,但是传统由kubernetes编排的算力集群由于设备只能被独占使用的原因无法充分利用算力资源,导致了大量算力浪费,这个问题在当前的极其依赖算力进行推理和训练的环境下变得尤为突出,于是kubernetes社区提出了动态设备分配机制(DRA)来支持设备复用。本次分享将介绍DRA的基本原理以及使用方式,展示这个技术的落地效果,并对比其与同类方案的优缺点,给出生产商的指导意见,让用户可以快速的使用DRA技术来为自己的算力集群降本增效
演讲题纲:
1.kubernetes已经成为算力集群的标准解决方案
2.kubernetes之上的标准算力卡(GPU)设备复用方案——DRA的必要性
3.DRA原理分析
4.基于DRA的GPU共享实践效果
5. DRA快速落地建议
6. 用DRA支持国产异构算力路线图
话题亮点:
全国/全球最权威的DRA落地指南