tencent cloud

词汇表

Download
聚焦模式
字号
最后更新时间: 2026-04-22 10:57:28

每分钟 Token 用量

Tokens Per Minute,每分钟 Token 用量。服务在每分钟内能够处理(输入 + 输出)的 token 总数上限。这是限制服务吞吐量的关键配额指标。

每分钟请求数

Requests Per Minute,每分钟请求数。服务在每分钟内能够处理的独立请求(API 调用)数量上限。这是限制服务并发访问能力的关键配额指标。

每输出 Token 延时

Time Per Output Token,每输出 Token 延时(不含首 Token)。在输出首 Token 之后,模型生成后续每个输出 Token 所需的平均时间。此指标决定了下文“流式输出”的流畅度。

首 Token 延时

Time To First Token,首 Token 延时。从用户发送完整请求到收到模型返回的第一个 token 所经历的时间。此指标直接影响用户感知的“响应速度”。

​​Token​

词元。大语言模型处理文本的基本单位。在中文中,一个词、一个字甚至一个标点都可能被划分为一个或多个 Token。它是衡量模型处理量和计算成本的核心单位。


帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈