性能监控指标
- 首Token响应时间(TTFT, Time To First Token)
- 衡量用户请求到首个Token返回的延迟,直接影响用户体验。文中测试低峰期TTFT均值约9秒。
- 每Token输出时延(TPOT, Time Per Output Token)
- 平均每个输出Token的生成时间,文中提到约50ms(对应输出速率20~22 TPS)。
- 吞吐量(Throughput)
- Prefill阶段:单机输入吞吐峰值达35.13k tokens/s(未命中缓存)。
- Decode阶段:单机输出吞吐峰值约15.89k tokens/s,理论值上限为22.75k tokens/s(H800 GPU)。
- 缓存命中率(KVCache Rate)
- 输入Token中命中缓存的比例,文中为56.3%(如总输入608B tokens,342B命中缓存)。
资源利用率指标
- 服务器占用率(SR_Cost)
- 服务器平均占用率约82%(226.75/278节点),反映资源实际使用效率。
- 集群利用率(SR_Use)
- 通过24小时并发趋势图计算有效计算时间,文中估算约33%(相当于8小时满负荷运行)。
- 服务可用率(SR_Available)
- 高峰期集群容量超限时的可用水位,文中推测R1集群SR_Available约60%(通过成功率下滑时段估算)。
并发与容量指标
- 并发请求数(max_con)
- 系统支持的峰值并发用户请求数,文中推算整个集群支持约114.21k路并发(Decode阶段)。
- 部署单元配比(N:M)
- Prefill与Decode集群的节点配比,文中估算为29:9(Prefill节点116个,Decode节点162个)。
- 弹性扩缩容能力
- 低谷期节点数60~70个(2~3个部署单元),高峰期扩容至278节点。