+ MaaS 监控 | Notion

性能监控指标

首Token响应时间（TTFT, Time To First Token）
- 衡量用户请求到首个Token返回的延迟，直接影响用户体验。文中测试低峰期TTFT均值约9秒。
每Token输出时延（TPOT, Time Per Output Token）
- 平均每个输出Token的生成时间，文中提到约50ms（对应输出速率20~22 TPS）。
吞吐量（Throughput）
- Prefill阶段：单机输入吞吐峰值达35.13k tokens/s（未命中缓存）。
- Decode阶段：单机输出吞吐峰值约15.89k tokens/s，理论值上限为22.75k tokens/s（H800 GPU）。
缓存命中率（KVCache Rate）
- 输入Token中命中缓存的比例，文中为56.3%（如总输入608B tokens，342B命中缓存）。

资源利用率指标

服务器占用率（SR_Cost）
- 服务器平均占用率约82%（226.75/278节点），反映资源实际使用效率。
集群利用率（SR_Use）
- 通过24小时并发趋势图计算有效计算时间，文中估算约33%（相当于8小时满负荷运行）。
服务可用率（SR_Available）
- 高峰期集群容量超限时的可用水位，文中推测R1集群SR_Available约60%（通过成功率下滑时段估算）。

并发与容量指标

并发请求数（max_con）
- 系统支持的峰值并发用户请求数，文中推算整个集群支持约114.21k路并发（Decode阶段）。
部署单元配比（N:M）
- Prefill与Decode集群的节点配比，文中估算为29:9（Prefill节点116个，Decode节点162个）。
弹性扩缩容能力
- 低谷期节点数60~70个（2~3个部署单元），高峰期扩容至278节点。