tencent cloud

消息队列 RocketMQ 版

动态与公告
新功能发布记录
公告
产品简介
产品概述
什么是消息队列 RocketMQ 版
产品优势
应用场景
产品系列
开源对比
高可用
使用限制
开服地域
基本概念
产品计费
计费概述
价格说明
计费示例
切换集群计费模式(5.x)
续费说明
查看消费明细
退费说明
欠费说明
快速入门
快速入门概述
准备工作
步骤1:创建 RocketMQ 资源
步骤2:使用 SDK 收发消息(推荐)
步骤2:运行 RocketMQ 客户端(可选)
步骤3:查询消息
步骤4:销毁资源
用户指南
使用流程指引
配置账号权限
新建集群
命名空间管理
配置 Topic
配置 Group
连接集群
管理消息
管理集群
查看监控和配置告警
跨集群复制消息
实践教程
RocketMQ 常见概念命名规范
RocketMQ 客户端实践
RocketMQ 性能压测和容量评估
使用社区版 HTTP SDK 接入
客户端风险说明和更新指南
关于 RocketMQ 4.x 集群角色(Role)相关云 API 迁移指引
迁移指南
有感迁移
无感迁移
开发指南
消息类型
消息过滤
消息重试
POP 消费模式(5.x)
集群消费与广播消费
订阅关系一致性
限流
API 参考(5.x)
History
API Category
Making API Requests
Topic APIs
Consumer Group APIs
Message APIs
Role Authentication APIs
Hitless Migration APIs
Cloud Migration APIs
Cluster APIs
Data Types
Error Codes
API 参考(4.x)
SDK 参考
SDK 概述
5.x SDK
4.x SDK
安全与合规
权限管理
云 API 审计
删除保护
常见问题
4.x 实例常见问题
服务协议
服务等级协议
联系我们

配置告警

PDF
聚焦模式
字号
最后更新时间: 2026-01-27 11:32:54
消息队列 RocketMQ 版不仅为运行中的资源提供了多项监控指标,用于监测集群的运行情况,还提供了关键指标的配置告警功能。您可以为监控指标配置告警规则,创建的告警会将一定周期内监控的指标与给定阈值的情况进行比对,当监控指标达到设定的报警阈值时,可观测平台可以通过邮件、短信、微信、电话等方式通知您,您可以及时采取相应的预防或补救措施,合理地配置告警规则能帮助您提高应用程序的健壮性和可靠性。

告警配置建议

本节为您介绍在使用消息队列 RocketMQ 版过程中需要重点关注的一些指标及其告警配置建议,您可以根据业务需要进行配置:
资源维度
指标
告警建议配置
详细说明
集群
堆积消息条数(Count)
统计周期1分钟,> 1000 Count,持续3个数据点,告警一次
堆积过多的消息会导致磁盘使用率迅速上涨,无法再接入更多消息,服务会停止。需要进行扩容。
被限流的消费 TPS(Count/s)
统计周期1分钟,> 0 Count/s,持续3个数据点,告警一次
判断集群 TPS 是否超出当前所购买的流量上限。可根据此项适当选择升配操作等
被限流的生产 TPS(Count/s)
统计周期1分钟,> 0 Count/s,持续3个数据点,告警一次
判断集群 TPS 是否超出当前所购买的流量上限。可根据此项适当选择升配操作等
集群公网丢弃入带宽(Bit/s)
统计周期1分钟,> 0 Bit/s,持续3个数据点,告警一次
当入方向流量超过集群公网带宽上限时,超出部分的流量会被丢弃。这表明当前公网带宽容量可能无法满足业务需求,需要扩容。
集群公网丢弃出带宽(Bit/s)
统计周期1分钟,> 0 Bit/s,持续3个数据点,告警一次
当出方向流量超过集群公网带宽上限时,超出部分的流量会被丢弃。这表明当前公网带宽容量可能无法满足业务需求,需要扩容。
Topic
堆积消息条数(Count)
统计周期1分钟,> 1000 Count,持续3个数据点,告警一次
堆积过多的消息会导致磁盘使用率迅速上涨,无法再接入更多消息,服务会停止。需要进行扩容。
被限流的消费 TPS(Count/s)
统计周期1分钟,> 0 Count/s,持续3个数据点,告警一次
判断集群 TPS 是否超出当前所购买的流量上限。可根据此项适当选择升配操作等
被限流的生产 TPS(Count/s)
统计周期1分钟,> 0 Count/s,持续3个数据点,告警一次
判断集群 TPS 是否超出当前所购买的流量上限。可根据此项适当选择升配操作等
Group
堆积消息条数(Count)
统计周期1分钟,> 1000 Count,持续3个数据点,告警一次
堆积过多的消息会导致磁盘使用率迅速上涨,无法再接入更多消息,服务会停止。需要进行扩容。
消费处理滞后时间(s)
统计周期1分钟,> 1s,持续3个数据点,告警一次
消费处理滞后时间反映了消费者客户端完成消费消息的及时性,如果时间滞后过长表示消费者可能卡住或者出现性能瓶颈。
死信消息 TPS(Count/s)
统计周期1分钟,> 0 Count/s,持续3个数据点,告警一次
每秒新增的死信消息数量,表示消息达最大重试次数后依旧消费失败,消费者可能卡住或者当前业务出现问题。

进入配置告警页面

入口一:登录TDMQ RocketMQ 版控制台,在监控大盘页面,单击监控图表右上角的配置告警按钮可以跳转到告警配置页面,页面默认设定的告警对象是跳转前监控图表对应的集群。

入口二:登录腾讯云可观测平台控制台,在告警配置页面可以查看所有预设策略和自定义策略,单击新建策略,监控类型选择云产品监控,策略类型选择消息队列TDMQ,5.x 集群请选择 RocketMQ5.x,4.x 集群请选择 RocketMQ4.x

配置告警规则

消息队列 RocketMQ 版预设了全面的默认告警策略,您可在腾讯云可观测平台上查看并配置这些策略,并根据实际需求在默认策略的基础上进行灵活调整。
默认告警策略
自定义告警策略
1. 进入告警策略配置页面后,策略类型根据您的集群类型选择消息队列 TDMQ/RocketMQ5.x 或者消息队列 TDMQ/RocketMQ4.x。
2. 选择您要设置告警的对象。
所属标签:可以根据标签批量筛选您想配置告警策略的资源。
告警对象:选择需要配置告警策略的 RocketMQ 资源。
3. 触发条件保持默认的手动配置,勾选使用预置触发条件,会出现如下图所示的系统预置告警触发条件,您可以根据这些默认策略快捷配置告警规则。

4. 单击下一步:配置告警通知,配置告警通知人。
1. 进入告警策略配置页面后,选择好策略类型,页面会自动展示当前资源类型提供的策略,您可以在默认告警策略基础上根据实际业务需求自定义配置告警策略。
2. 选择您要设置告警的对象。
所属标签:可以根据标签批量筛选您想配置告警策略的资源。
告警对象:选择需要配置告警策略的 RocketMQ 资源。
3. 设置告警触发条件,支持选择模板手动配置,默认选择手动配置。
手动配置
选择模板
指标:例如“消息生产条数TPS”,选择统计粒度为1分钟,则在1分钟内,消息生产条数TPS连续N个数据点超过阈值,就会触发告警。
告警频次:例如“每30分钟告警一次”,指每30分钟内,连续多个统计周期指标都超过了阈值,如果有一次告警,30分钟内就不会再次进行告警,直到下一个30分钟,如果指标依然超过阈值,才会再次告警。
1. 勾选选择模板后,单击新建触发条件模板,跳转到设置触发条件模板页面。
2. 在左上角单击新建触发条件模板,在新建模板页面,配置告警策略。
策略类型:选择 消息队列 TDMQ,然后根据您的集群类型选择消息队列 TDMQ/RocketMQ5.x 或者消息队列 TDMQ/RocketMQ4.x
触发条件:根据我们提供的告警策略建议或者您实际的业务需求,设置好告警策略。

3. 确认无误后,单击保存,返回新建告警策略页,单击刷新,就会出现刚配置的告警策略模板。

说明:
关于配置告警策略功能的更多介绍,请参考配置指标告警文档。
4. 单击下一步:配置告警通知,配置告警通知人。

配置告警通知

在配置告警通知页面,您可以选择系统预设的通知模板,预设模板的告警对象通常为主账号负责人。如您需要通知到实例负责人或其他人员,也可以单击新建模板来新建通知模板,设置告警接收对象和接收渠道。
新建通知模板的详细操作请参考新建通知模板



帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈