模型监控

Download

聚焦模式

字号

最后更新时间： 2026-06-11 17:48:40

功能概述
﻿模型监控 提供实时的模型推理性能监控仪表板，帮助您追踪各模型的请求并发、Token 吞吐、响应延迟等核心指标，及时发现性能瓶颈。
分类筛选
分类
监控内容
语言模型
文本生成模型的 RPM（Requests Per Minute）、TTFT（Time To First Token）、TPOT（Time Per Output Token）等指标。
筛选条件
筛选项
说明
筛选维度
支持按服务/按模型筛选，切换不同的聚合视角。
服务选择
下拉选择特定推理服务（默认显示全部服务）。
时间范围
1小时/今天/近3天/近7天/近30天，或自定义时间区间。
监控指标说明
文本生成核心指标
以时序折线图的形式展示以下核心性能指标：
指标
全称
单位
说明
每分钟请求数（RPM）
Requests Per Minute
reqs/min
每分钟的请求并发数，反映当前的请求吞吐量。
首 Token 延迟（TTFT）
Time To First Token
ms
从请求发送到收到第一个 Token 的响应时间（单位时间内流式请求的 TTFT 均值，不包含非流式请求）。
每 Token 输出时延（TPOT）
Time Per Output Token
ms
生成每个输出 Token 的平均耗时。
非流式接口延时
Non-Stream Latency
ms
单位时间内针对非流式请求的 latency，端到端耗时。
限流错误率
Rate Limited Ratio
-
限流次数 / 总调用次数。
超时错误率
Request Canceled Ratio
-
因超时等原因触发的取消请求 / 总调用次数。
错误率
Request Error Ratio
-
HTTP 状态码非200请求数 / 总请求数
缓存命中率
Cache Hit Ratio
-
请求缓存命中 token 数 / 输入总 token 数
每项指标均提供最大值、最小值、平均值三项统计摘要，帮助用户快速定位性能异常。
示例如下：
﻿
﻿
﻿

帮助和支持

本页内容是否解决了您的问题？

您也可以联系销售或提交工单以寻求帮助。

填写满意度调查问卷，共创更好文档体验。

文档反馈

tencent cloud

大模型服务平台 TokenHub

模型监控

功能概述

分类筛选

筛选条件

监控指标说明

文本生成核心指标

帮助和支持

分类	监控内容
语言模型	文本生成模型的 RPM（Requests Per Minute）、TTFT（Time To First Token）、TPOT（Time Per Output Token）等指标。

筛选项	说明
筛选维度	支持按服务/按模型筛选，切换不同的聚合视角。
服务选择	下拉选择特定推理服务（默认显示全部服务）。
时间范围	1小时/今天/近3天/近7天/近30天，或自定义时间区间。

指标	全称	单位	说明
每分钟请求数（RPM）	Requests Per Minute	reqs/min	每分钟的请求并发数，反映当前的请求吞吐量。
首 Token 延迟（TTFT）	Time To First Token	ms	从请求发送到收到第一个 Token 的响应时间（单位时间内流式请求的 TTFT 均值，不包含非流式请求）。
每 Token 输出时延（TPOT）	Time Per Output Token	ms	生成每个输出 Token 的平均耗时。
非流式接口延时	Non-Stream Latency	ms	单位时间内针对非流式请求的 latency，端到端耗时。
限流错误率	Rate Limited Ratio	-	限流次数 / 总调用次数。
超时错误率	Request Canceled Ratio	-	因超时等原因触发的取消请求 / 总调用次数。
错误率	Request Error Ratio	-	HTTP 状态码非200请求数 / 总请求数
缓存命中率	Cache Hit Ratio	-	请求缓存命中 token 数 / 输入总 token 数