词汇表

Download

聚焦模式

字号

最后更新时间： 2026-04-22 10:57:28

每分钟 Token 用量
Tokens Per Minute，每分钟 Token 用量。服务在每分钟内能够处理（输入 + 输出）的 token 总数上限。这是限制服务吞吐量的关键配额指标。
每分钟请求数
Requests Per Minute，每分钟请求数。服务在每分钟内能够处理的独立请求（API 调用）数量上限。这是限制服务并发访问能力的关键配额指标。
每输出 Token 延时
Time Per Output Token，每输出 Token 延时（不含首 Token）。在输出首 Token 之后，模型生成后续每个输出 Token 所需的平均时间。此指标决定了下文“流式输出”的流畅度。
首 Token 延时
Time To First Token，首 Token 延时。从用户发送完整请求到收到模型返回的第一个 token 所经历的时间。此指标直接影响用户感知的“响应速度”。
​​Token​
词元。大语言模型处理文本的基本单位。在中文中，一个词、一个字甚至一个标点都可能被划分为一个或多个 Token。它是衡量模型处理量和计算成本的核心单位。
﻿

帮助和支持

本页内容是否解决了您的问题？

您也可以联系销售或提交工单以寻求帮助。

填写满意度调查问卷，共创更好文档体验。

文档反馈

tencent cloud

大模型服务平台 TokenHub

词汇表

每分钟 Token 用量

每分钟请求数

每输出 Token 延时

首 Token 延时

Token

帮助和支持

tencent cloud

大模型服务平台 TokenHub

词汇表

每分钟 Token 用量

每分钟请求数

每输出 Token 延时

首 Token 延时

​​Token​

帮助和支持

Token