监控升级和告警迁移公告

最后更新时间:2021-04-29 10:21:58

    监控粒度

    腾讯云数据库 Redis 目前提供1分钟和5秒的监控粒度,2020年10月上线了5秒监控功能,并且提供了更多的监控指标,以及 Proxy 监控数据,详情参见 5秒监控更新说明

    监控粒度变化

    1分钟监控粒度

    • 2020年10月20日之前创建的实例,仅支持 1分钟监控粒度,目前我们正在进行逐步升级至支持5秒监控。
    • 云监控控制台查看监控数据入口:【云监控】>【云数据库】>【Redis(1分钟粒度)】。

    5秒监控粒度

    • 2020年10月20日之后创建的实例,同时支持1分钟和 5秒监控粒度
    • 云监控控制台查看监控数据入口:【云监控】>【云数据库】>【Redis(5秒粒度)】。

    监控粒度升级说明

    升级说明:云数据库 Redis 需要将您的 Proxy 升级到最新版本才能支持到5秒监控。
    升级影响:Proxy 的升级会有闪断,业务重连即可:

    1. 腾讯云后台升级:目前我们正在进行全网实例的升级,升级前会通过短信、站内信、邮件等方式通知您。
    2. 控制台自助升级:我们将在近期开放控制台自助升级功能。
    3. 在全部实例升级到5秒监控粒度后,我们将停止1分钟监控的支持。

      监控指标变化

      监控粒度从1分钟升级到5秒后,我们对指标名称进行了调整,并且新增了多个指标,详情参考下表:
    1分钟指标 5秒指标 指标说明
    CpuUsMin CpuUtil 平均 CPU 使用率
    CpuMaxUs CpuMaxUtil 实例中节点(分片或者副本)最大 CPU 使用率
    StorageMin MemUsed 实际使用内存容量,包含数据和缓存部分
    StorageUsMin MemUtil 实际使用内存和申请总内存之比
    StorageMaxUs MemMaxUtil 实例中节点(分片或者副本)最大内存使用率
    KeysMin Keys 实例存储的总 Key 个数(一级 Key)
    ExpiredKeysMin Expired 时间窗内被淘汰的 Key 个数,对应 info 命令输出的 expired_keys
    EvictedKeysMin Evicted 时间窗内被驱逐的 Key 个数,对应 info 命令输出的 evicted_keys
    ConnectionsMin Connections 连接到实例的 TCP 连接数量
    ConnectionsUsMin ConnectionsUtil 实际 TCP 连接数量和最大连接数比
    InFlowMin InFlow 内网入流量
    InFlowUs InBandwidthUtil 内网入流量实际使用和最大流量比
    - InFlowLimit 入流量触发限流的次数
    OutFlowMin OutFlow 内网出流量
    OutFlowUs OutBandwidthUtil 内网出流量实际使用和最大流量比
    - OutFlowLimit 出流量触发限流的次数
    LatencyMin LatencyAvg proxy 到 redis server 的执行时延平均值
    - LatencyMax proxy 到 redis server 的执行时延最大值
    - LatencyP99 proxy 到 redis server 的执行时延99%水位线
    LatencyGetMin LatencyRead proxy 到 redis server 的读命令平均执行时延
    LatencySetMin LatencyWrite proxy 到 redis server 的写命令平均执行时延
    LatencyOtherMin LatencyOther proxy 到 redis server 的读写命令之外的命令平均执行时延
    QpsMin Commands QPS,命令执行次数
    StatGetMin CmdRead 读命令执行次数,读命令分类,请查看文档监控说明
    StatSetMin CmdWrite 写命令执行次数,读命令分类,请查看文档监控说明
    StatOtherMin CmdOther 读写命令之外的命令执行次数,其他命令分类,请查看文档监控说明
    BigValueMin CmdBigValue 请求命令大小超过32KB的执行次数
    - CmdKeyCount 命令访问的 Key 个数
    - CmdMget Mget 命令执行次数
    SlowQueryMin CmdSlow 执行时延大于 slowlog-log-slower-than 配置的命令次数
    StatSuccessMin CmdHits 读请求 Key 存在的个数,对应 info 命令输出的 keyspace_hits 指标
    StatMissedMin CmdMiss 读请求 Key 不存在的个数,对应 info 命令输出的 keyspace_misses 指标
    CmdErrMin CmdErr 命令执行错误的次数,例如命令不存在、参数错误等情况
    CacheHitRatioMin CmdHitsRatio Key 命中 / (Key 命中 + KeyMiss),该指标可以反应 Cache Miss 的情况

    如何区分实例的监控粒度

    • 通过 API 接口 DescribeInstances 返回的字段 InstanceSet.MonitorVersion 判断:MonitorVersion = 5s,表示为5秒粒度;MonitorVersion = 1m,表示为1分钟粒度。
    • 通过 Redis 控制台 查看:单击实例名进入实例管理页面,选择【系统监控】>【监控指标】页面,如果实例监控的时间粒度支持5秒,说明该实例支持5秒监控粒度,否则该实例是1分钟监控粒度。

    告警迁移

    告警配置变化

    因为监控指标的升级,1分钟粒度和5秒监控粒度的实例需要在不同的 云监控 入口配置告警,具体入下图所示:

    监控升级影响

    Redis 的监控粒度从1分钟升级到5秒之后,为同步升级告警策略,需要将1分钟的告警策略(云数据库-Redis-内存版(1分钟粒度))复制到5秒告警策略中(云数据库-Redis-内存版(5秒粒度))。配置告警策略时监控指标有所变化,请参考 监控指标变化
    监控升级到5秒对告警策略的影响说明:

    • 监控数据会在短期内同时上报1分钟和5秒的数据,后续会停止1分钟数据的上报。
    • 1分钟的告警策略短期内依然会生效。
    • 升级动作会绑定5秒默认告警策略,请您为5秒的默认告警策略配置告警接收人。

    告警策略迁移方法

    • 手动迁移:参考1分钟的告警策略,在5秒告警策略中重新配置一遍,并配置告警接收人。
    • 自动迁移:腾讯云数据库团队,将在后续支持1分钟告警策略复制到5秒告警策略,我们将在监控升级完成后,统一进行告警策略迁移,届时会通过短信、站内信、邮件等方式通知您。