GPU监控指标
Model FLOPS Utilization (MFU) 和 Hardware FLOPS Utilization (HFU)
- MFU = 预估 FLOPS/硬件理论 FLOPS,预估 FLOPS 是模型训练时理论需要的计算量。
- HFU = 实际 FLOPS/硬件理论 FLOPS,实际 FLOPS 包括所有实际发生的计算量,如 Gradient Checkpointing/Activation Recomputation 等引入的额外计算量。
NVIDIA DCGM (Data Center GPU Manager)
- 监控指标包括健康检测、全面诊断、系统报警及治理策略等。
**GPU 监控集成 ***
- 通过 DCGM-Exporter 与 Kubernetes 生态系统集成,提供 GPU 监测数据。
**GPU 监控指标 ***
- 显存占用、算力利用率、温度、功率、频率以及 NVLink 和各种异常相关指标。
NVIDIA Fabric Manager
- 配置 NVSwitch 内存结构,监控 NVLink 和 NVSwitch 错误。
**GPU 故障 ***
- 包括 ECC Error 或 Xid Code,Xid Code 错误可以参考 NVIDIA 的官方文档。
**GPU 利用率指标 ***
- GPU Utilization (DCGM_FI_PROF_GR_ENGINE_ACTIVE):Graphics 或 Compute 引擎处于 Active 的时间占比。
- GPU SM Active (DCGM_FI_PROF_SM_ACTIVE):至少一个 Warp 在一个 SM 上处于 Active 的时间占比。
- GPU SM Occupancy (DCGM_FI_PROF_SM_OCCUPANCY):驻留在 SM 上的 Warp 与该 SM 最大可驻留 Warp 的比例。