【看完*2】
需求 挑战
【
训练
多卡 通信带宽与时间延迟有要求(数据并行 AllReduce)【高带宽 vs 低时延】
资源池 资源划分
推理
多推理框架
分布式推理
并发
延迟
】
【
数据
训练 实现数据共享 避免多次流转
数据预处理 spark
训练
DP TP PP 对网络要求不同 → 网络架构
适配 不同硬件 国产化Asend
弹性 容错
推理
蓝绿部署
融合算子优化
其他
流程化 + 模板化
算力池 比例
计算和存储的扩容
】
架构