监控功能(5秒粒度)

最后更新时间:2021-06-25 14:51:50

    云数据库 Redis 提供完整透明的监控服务,新版本(支持5秒监控粒度)监控提供了包括 Proxy 节点监控、Redis 节点监控和实例监控汇总,详情如下:

    • Proxy 节点监控:云数据库 Redis 标准架构和集群架构都包含 Proxy,监控服务提供实例所有 Proxy 节点的监控信息。
    • Redis 节点监控:Redis 节点包含了 Redis 主节点和副本节点的监控信息。
    • 实例监控:实例监控汇总了整个实例的监控数据,包括 Proxy 节点和 Redis 节点的监控数据,通过 SUM、AVG、MAX、LAST 等聚合算法聚合而成。

      5秒监控说明

    • 默认新购实例都支持5秒监控粒度(除 CKV 版本)。
    • 存量实例(最小粒度仅支持1分钟),后续将开放用户自助在控制台升级到5秒粒度,具体时间请关注 Redis 控制台 公告与弹窗信息。
    • 5秒监控粒度和1分钟监控粒度的实例在 云监控 拥有不同的告警配置入口,业务需要将现有告警策略重新在【内存版(5秒粒度)】下全部新建一份,否则新建的实例将无法绑定原有设定的告警策略。

    查看实例监控粒度

    • 通过 Redis 控制台 查看:单击实例 ID 进入实例管理页面,选择【系统监控】>【监控指标】页面,如果实例监控的时间粒度支持5秒,说明该实例支持5秒监控粒度,否则该实例是1分钟监控粒度。
    • 通过 API 接口 DescribeInstances 返回的字段 InstanceSet.MonitorVersion 判断:MonitorVersion = 5s,表示为5秒粒度;MonitorVersion = 1m,表示为1分钟粒度。

    监控粒度/保留时长

    Redis 目前支持5秒、1分钟、5分钟、1小时、1天的粒度的指标监控,各粒度监控数据保留时长请参见 使用约束

    查看监控

    您可以通过 Redis 实例列表、Redis 实例监控页面、云监控控制台3个地方查看云数据库 Redis 的监控信息:

    • 实例列表:登录 Redis 控制台,在实例列表,单击如下监控图标,可快速浏览监控指标。
    • 实例监控页面:登录 Redis 控制台,单击实例 ID 进入实例管理页面,选择【系统监控】>【监控指标】,可查看实例监控信息详情。
    • 云监控控制台:登录 云监控控制台,可查看汇总监控数据。

    监控指标说明

    Proxy 节点监控

    每个 Redis 实例包含了至少3个 Proxy 节点,通常 Proxy 节点数是 Redis 节点数量的1.5倍,Proxy 节点提供以下监控信息:

    分组指标指标名称单位TIPS
    CPUCPU 使用率cpu_util%Proxy CPU 使用率
    请求总请求proxy_commands次/秒Proxy 执行的命令数
    Key 请求数cmd_key_count个/秒命令访问的 Key 个数
    Mget 请求数cmd_mget次/秒Mget 命令执行次数
    执行错误cmd_err次/秒Proxy 命令执行错误的次数,例如,命令不存在、参数错误等情况
    大 Value 请求cmd_big_value次/秒请求命令大小超过32KB的执行次数
    网络监控连接数量connections连接到实例的 TCP 连接数量
    连接使用率connections_util%实际 TCP 连接数量和最大连接数比
    入流量in_flowMb/s内网入流量
    入流量使用率in_bandwidth_util%内网入流量实际使用和最大流量比
    入流量限流触发in_flow_limit入流量触发限流的次数
    出流量out_flowMb/s内网出流量
    出流量使用率out_bandwidth_util%内网出流量实际使用和最大流量比
    出流量限流触发out_flow_limit出流量触发限流的次数
    时延监控平均执行时延latency_avgmsProxy 到 Redis Server 的执行时延平均值
    最大执行时延latency_maxmsProxy 到 Redis Server 的执行时延最大值
    读平均时延latency_readmsProxy 到 Redis Server 的读命令平均执行时延,读命令分类,请参见 命令分类
    写平均时延latency_writemsProxy 到 Redis Server 的写命令平均执行时延,写命令分类,请参见 命令分类
    其他命令平均时延latency_othermsProxy 到 Redis Server 的读写命令之外的命令平均执行时延

    Redis 节点监控

    Redis 节点监控提供整个实例/集群所有主节点和从节点的监控信息,提供以下监控指标:

    分组指标指标名称单位TIPS
    CPU 监控CPU 使用率cpu_util%平均 CPU 使用率
    网络连接数量connectionsProxy 连接到节点的连接数
    连接使用率connections_util%节点连接数使用率
    内存监控内存使用量mem_usedMB实际使用内存容量,包含数据和缓存部分
    内存使用率mem_util%实际使用内存和申请总内存之比
    Key 总个数keys实例存储的总 Key 个数(一级 Key)
    key 过期数expired时间窗内被淘汰的 Key 个数,对应 info 命令输出的 expired_keys
    key 驱逐数evicted时间窗内被驱逐的 Key 个数,对应 info 命令输出的 evicted_keys
    复制延迟repl_delayByte副本节点的相对主节点命令延迟长度
    请求监控总请求commands次/秒QPS,命令执行次数
    读请求cmd_read次/秒读命令执行次数,读命令分类,请参见 命令分类
    写请求cmd_write次/秒写命令执行次数,写命令分类,请参见 命令分类
    其他请求cmd_other次/秒读写命令之外的命令执行次数
    响应监控慢查询cmd_slow执行时延大于 slowlog-log-slower-than 配置的命令次数
    读请求命中cmd_hits读请求 Key 存在的个数,对应 info 命令输出的 keyspace_hits 指标
    读请求 Misscmd_miss读请求 Key 不存在的个数,对应 info 命令输出的 keyspace_misses 指标
    读请求命中率cmd_hits_ratio%Key 命中 \ (Key命中 + KeyMiss),该指标可以反应 Cache Miss 的情况

    Redis 实例监控

    实例监控汇总了整个实例的监控数据,由 Proxy 节点和 Redis 节点的监控数据,通过 SUM、AVG、MAX、LAST 等聚合算法聚合而成。

    分组指标中文名关联视图指标英文名单位指标说
    CPU 监控CPU 使用率Redis 节点cpu_util%平均 CPU 使用率
    节点最大 CPU 使用率Redis 节点cpu_max_util%实例中节点(分片或者副本)最大 CPU 使用率
    内存监控内存使用量Redis 节点mem_usedMB实际使用内存容量,包含数据和缓存部分
    内存使用率Redis 节点mem_util%实际使用内存和申请总内存之比
    节点最大内存使用率Redis 节点mem_max_util%实例中节点(分片或者副本)最大内存使用率
    Key 总个数Redis 节点keys实例存储的总 Key 个数(一级 Key)
    Key 过期数Redis 节点expired时间窗内被淘汰的 Key 个数,对应 info 命令输出的 expired_keys
    Key 驱逐数Redis 节点evicted时间窗内被驱逐的 Key 个数,对应 info 命令输出的 evicted_keys
    网络监控连接数量Proxy 节点connections连接到实例的 TCP 连接数量
    连接使用率Proxy 节点connections_util%实际 TCP 连接数量和最大连接数比
    入流量Proxy 节点in_flowMb/s内网入流量
    入流量使用率Proxy 节点in_bandwidth_util%内网入流量实际使用和最大流量比
    入流量限流触发Proxy 节点in_flow_limit入流量触发限流的次数
    出流量Proxy 节点out_flowMb/s内网出流量
    出流量使用率Proxy 节点out_bandwidth_util%内网出流量实际使用和最大流量比
    出流量限流触发Proxy 节点out_flow_limit出流量触发限流的次数
    平均执行时延Proxy 节点latency_avgmsProxy 到 Redis Server 的执行时延平均值
    最大执行时延Proxy 节点latency_maxmsProxy 到 Redis Server 的执行时延最大值
    读平均时延Proxy 节点latency_readmsProxy 到 Redis Server 的读命令平均执行时延,读命令分类,请参见 命令分类
    写平均时延Proxy 节点latency_writemsProxy 到 Redis Server 的写命令平均执行时延,写命令分类,请参见 命令分类
    其他命令平均时延Proxy 节点latency_othermsProxy 到 Redis Server 的读写命令之外的命令平均执行时延
    请求监控总请求Redis 节点commands次/秒QPS,命令执行次数
    读请求Redis 节点cmd_read次/秒 读命令执行次数,读命令分类,请参见 命令分类
    写请求Redis 节点cmd_write次/秒写命令执行次数,写命令分类,请参见 命令分类
    其他请求Redis 节点cmd_other次/秒读写命令之外的命令执行次数
    大 Value 请求Proxy 节点cmd_big_value次/秒请求命令大小超过32KB的执行次数
    Key 请求数Proxy 节点cmd_key_count个/秒命令访问的 Key 个数
    Mget 请求数Proxy 节点cmd_mget个/秒Mget 命令执行次数
    慢查询 Redis 节点cmd_slow执行时延大于 slowlog - log - slower - than 配置的命令次数
    读请求命中Redis 节点cmd_hits读请求 Key 存在的个数,对应 info 命令输出的 keyspace_hits 指标
    读请求MissRedis 节点cmd_miss读请求 Key 不存在的个数,对应 info 命令输出的 keyspace_misses 指标
    执行错误Proxy 节点cmd_err命令执行错误的次数,例如,命令不存在、参数错误等情况
    读请求命中率Redis 节点cmd_hits_ratio%Key 命中 / (Key 命中 + KeyMiss),该指标可以反应 Cache Miss 的情况

    命令分类

    命令分类 列表
    读命令 get,strlen,exists,getbit,getrange,substr,mget,llen,lindex,lrange,sismember,scard,srandmember,
    sinter,sunion,sdiff,smembers,sscan,zrange,zrangebyscore,zrevrangebyscore,zrangebylex,
    zrevrangebylex,zcount,zlexcount,zrevrange,zcard,zscore,zrank,zrevrank,zscan,hget,hmget,
    hlen,hstrlen,hkeys,hvals,hgetall,hexists,hscan,randomkey,keys,scan,dbsize,type,ttl,touch,pttl,
    dump,object,memory,bitcount,bitpos,georadius_ro,georadiusbymember_ro,geohash,geopos,geodist,pfcount
    写命令 set,setnx,setex,psetex,append,del,unlink,setbit,bitfield,setrange,incr,decr,rpush,lpush,rpushx,
    lpushx,linsert,rpop,lpop,brpop,brpoplpush,blpop,lset,ltrim,lrem,rpoplpush,sadd,srem,smove,spop,
    sinterstore,sunionstore,sdiffstore,zadd,zincrby,zrem,zremrangebyscore,zremrangebyrank,
    zremrangebylex,zunionstore,zinterstore,hset,hsetnx,hmset,hincrby,hincrbyfloat,hdel,incrby,decrby,
    incrbyfloat,getset,mset,msetnx,swapdb,move,rename,renamenx,expire,expireat,pexpire,pexpireat,
    flushdb,flushall,sort,persist,restore,restore-asking,migrate,bitop,geoadd,georadius,georadiusbymember,
    pfadd,pfmerge,pfdebug

    查询节点信息

    通过 API 接口 DescribeInstanceNodeInfo 可以获取到 Proxy 节点 ID 和 Redis 节点 ID。

    注意:

    实例内部发生节点故障切换,或者是扩容、缩容、迁移等场景下,Proxy 和 Redis 的节点 ID 会发生变化,因此需要及时从 API 接口获取最新的节点信息。