分类 | 监控内容 |
语言模型 | 文本生成模型的 RPM(Requests Per Minute)、TTFT(Time To First Token)、TPOT(Time Per Output Token)等指标。 |
筛选项 | 说明 |
筛选维度 | 支持按服务/按模型筛选,切换不同的聚合视角。 |
服务选择 | 下拉选择特定推理服务(默认显示全部服务)。 |
时间范围 | 1小时/今天/近3天/近7天/近30天,或自定义时间区间。 |
指标 | 全称 | 单位 | 说明 |
每分钟请求数(RPM) | Requests Per Minute | reqs/min | 每分钟的请求并发数,反映当前的请求吞吐量。 |
首 Token 延迟(TTFT) | Time To First Token | ms | 从请求发送到收到第一个 Token 的响应时间。 |
每 Token 输出时延(TPOT) | Time Per Output Token | ms | 生成每个输出 Token 的平均耗时。 |

文档反馈