性能监控指标

  1. 首Token响应时间(TTFT, Time To First Token)
  2. 每Token输出时延(TPOT, Time Per Output Token)
  3. 吞吐量(Throughput)
  4. 缓存命中率(KVCache Rate)

资源利用率指标

  1. 服务器占用率(SR_Cost)
  2. 集群利用率(SR_Use)
  3. 服务可用率(SR_Available)

并发与容量指标

  1. 并发请求数(max_con)
  2. 部署单元配比(N:M)
  3. 弹性扩缩容能力