每分钟 Token 用量
Tokens Per Minute,每分钟 Token 用量。服务在每分钟内能够处理(输入 + 输出)的 token 总数上限。这是限制服务吞吐量的关键配额指标。
每分钟请求数
Requests Per Minute,每分钟请求数。服务在每分钟内能够处理的独立请求(API 调用)数量上限。这是限制服务并发访问能力的关键配额指标。
每输出 Token 延时
Time Per Output Token,每输出 Token 延时(不含首 Token)。在输出首 Token 之后,模型生成后续每个输出 Token 所需的平均时间。此指标决定了下文“流式输出”的流畅度。
首 Token 延时
Time To First Token,首 Token 延时。从用户发送完整请求到收到模型返回的第一个 token 所经历的时间。此指标直接影响用户感知的“响应速度”。
Token
词元。大语言模型处理文本的基本单位。在中文中,一个词、一个字甚至一个标点都可能被划分为一个或多个 Token。它是衡量模型处理量和计算成本的核心单位。