腾讯云可观测平台事件中心,产品事件当前支持以下事件类监控信息:
事件 中文名 |
事件 英文名 |
事件 类型 |
从属维度 | 有无 恢复 概念 |
事件描述 | 处理方法与建议 |
---|---|---|---|---|---|---|
内核故障 | GuestCoreError | 异常 事件 |
云服务器实例维度 | 无 | 操作系统内核 bug 或驱动问题导致操作系统内核发生致命错误 | 1. 检查系统中是否有加载内核自身携带的内核驱动以外的其它内核驱动模块。尝试不要加载这些模块,观察系统运行情况 2. 关注内核与操作系统发行版的 bug 报告,尝试升级内核解决 3. 腾讯云云服务器默认会开启 kdump,发生 panic 时一般会在 /var/crash 下生成系统内存 dump 信息,可以利用 crash 工具进行分析 |
内存 OOM | GuestOom | 异常 事件 |
云服务器实例维度 | 无 | 系统内存使用过载 | 1. 评估当前系统所配置内存是否满足业务内存需求,如果需要更大的内存建议升级 CVM 内存配置 2. 通过系统日志(dmesg,/var/log/messages 等)查看 OOM 发生时 kill 掉的进程,查看进程内存使用是否符合预期,通过 valgrind 等工具分析是否存在内存泄露 |
ping 不可达 | PingUnreachable | 异常 事件 |
云服务器实例维度 | 有 | 云服务器网络 ping 不可达 | 1. 检查云服务器当前的运行状态是否正常,如果发生了系统挂死等情况,可以从控制台重启(强制重启)恢复 2. 如果云服务器当前运行正常,检查云服务器网络配置,包括:云服务器内部的网络服务、防火墙、云服务器安全组设置等 |
磁盘只读 | DiskReadonly | 异常 事件 |
云服务器实例维度 | 有 | 磁盘无法写入数据 | 1. 检查磁盘的存储是否存在已满情况。 2. Linux 操作系统可以查看 inode(df -i)是否有耗尽的情况。 3. 检查文件系统是否损坏 |
机器重启 | GuestReboot | 状态 变更 |
云服务器实例维度 | 有 | 云服务器重启 | 当云服务器被重启的时候,会触发该事件,请根据实际情况查看状态变更是否符合预期 |
外网出带宽超限导致丢包 | PacketDroppedByQosWanOutBandwidth | 异常 事件 |
云服务器实例维度 | 有 | 云服务器实例外网出带宽超过主机的外网出带宽限制导致丢包。带宽毛刺导致的丢包不会体现在带宽图表中,原因:带宽最细统计粒度为10级(10秒内总流量/10秒)。若常量带宽没有明显超出也可忽略 | 提高外网带宽上限。 如果已达到可购买的最高上限, 可通过负载均衡等方式降低单机带宽 |
子机 nvme 设备 error | NvmeError | 异常 事件 |
云服务器实例维度 | 无 | 子机 nvme 盘故障导致掉盘 | 1. 隔离问题盘的读写,卸载对应目录 2. 提交工单 并等待技术人员换盘 3. 换盘完成,格式化新盘后使用 |
事件 中文名 |
事件 英文名 |
事件 类型 |
从属维度 | 有无 恢复概念 |
事件描述 | 处理方法与建议 |
---|---|---|---|---|---|---|
外网 IP 被封堵 | VipBlockInfo | 异常 事件 |
负载均衡实例维度 | 有 | 负载均衡公网 IP 被攻击,安全侧检测异常后封堵 | 提工单查询具体的封堵原因和解封策略 |
服务器端口状态异常 | RsPortStatusChange | 异常 事件 |
后端服务器端口维度 | 有 | 外网 LB 后端服务端口健康检查异常 | 查看后端服务端口的服务状态 |
事件 中文名 |
事件 英文名 |
事件 类型 |
从属维度 | 有无 恢复概念 |
事件描述 | 处理方法与建议 |
---|---|---|---|---|---|---|
外网出带宽超限导致丢包 | PacketDroppedByQosWanOutBandwidth | 异常 事件 |
VPN 网关实例维度 | 有 | VPN 的外网出带宽超过限制导致丢包。带宽毛刺导致的丢包不会体现在带宽图表中,原因:带宽最细统计粒度为10级(10秒内总流量/10秒)。若常量带宽没有明显超出也可忽略。 | 提高外网带宽上限 |
连接数超限导致丢包 | PacketDroppedByQosConnectionSession | 异常 事件 |
VPN 网关实例维度 | 有 | VPN 网关实例连接数过多导致丢包 | 提交工单 联系我们 |
事件 中文名 |
事件 英文名 |
事件 类型 |
从属维度 | 有无 恢复概念 |
事件描述 | 处理方法与建议 |
---|---|---|---|---|---|---|
节点异常 | NodeNotReady | 异常 事件 |
节点维度 | 有 | 节点异常可能由多种原因导致,例如网络不通,节点 kubelet 异常,容器造成 OOM 等都会致使此异常发生。节点长时间异常,会造成 kubenetes 主动驱逐该节点上的容器。 | 1. 首先排查节点在 CVM 页面是否运行中,监控是否有异常。 2. 登录到子机查看 kubelet 是否运行正常。 3. 登录到子机查看 docker 是否运行正常 |
节点磁盘空间将要耗尽 | NodeHasDiskPressure | 异常 事件 |
节点维度 | 有 | 节点上容器和镜像存储所用到的磁盘(cbs 或者 root)空间将要耗尽,如果耗尽,将触发 NodeOutOfDisk,会致使新的容器无法在被调度到此节点 | 清理磁盘或者无用的容器镜像 |
节点磁盘空间已耗尽 | NodeOutOfDisk | 异常 事件 |
节点维度 | 有 | 节点上容器和镜像存储所用到的磁盘(cbs 或者root)空间已经耗尽,新的容器无法在被调度到此节点 | 清理磁盘或者无用的容器镜像 |
节点内存将要耗尽 | NodeHasInsufficientMemory | 异常 事件 |
节点维度 | 有 | 节点内存使用率偏高 | 扩容或者调度容器到其他节点 |
节点 OOM | SystemOOM | 异常 事件 |
节点维度 | 无 | 节点由于内存过高而发生 OOM | 检查当前节点上触发 OOM 的原因,例如查看监控,syslog,demsg 等 |
节点网络不可达 | NodeNetworkUnavailable | 异常 事件 |
节点维度 | 无 | 节点上网络没有被正确配置, 正常情况下,从控制台或云 API 创建的集群不会出现此问题 | 及时 提交工单 联系我们 |
节点 Inode 不足 | NodeInodePressure | 异常 事件 |
节点维度 | 无 | 节点 Inode 不足会造成节点无法创建新的容器 | 检查节点上 Inode 的剩余情况,可以尝试清理无用的容器镜像释放 Inode 空间 |
事件 中文名称 |
事件 英文名称 |
事件 类型 |
从属维度 | 有无 恢复概念 |
事件描述 | 处理方法和建议 |
---|---|---|---|---|---|---|
内存 OOM | OutOfMemory | 异常 事件 |
云数据库 MySQL 实例维度 | 有 | 数据库内存使用过载 | 评估当前数据库内存规格是否满足业务需求,如果需要更大的内存建议升级 MySQL 的内存配置 |
主从切换 | PrimarySwitch | 异常 事件 |
云数据库 MySQL 实例维度 | 无 | 主实例和从实例发生切换 | 当物理机故障时可能会触发该事件,请确认实例状态是否正常 |
只读实例剔除 | RORemoval | 异常 事件 |
云数据库 MySQL 实例维度 | 有 | 只读实例故障或超过延迟阈值 | 若只读组仅一个只读实例,只读实例被剔除后,请及时对读流量进行切换,避免因只读实例出现单点故障,建议为只读组至少购买两个只读实例 |
服务器故障导致实例迁移 | ServerfailureInstanceMigration | 异常 事件 |
云数据库 MySQL 实例维度 | 无 | 服务器故障发起的实例迁移 | 迁移切换时间以维护时间窗为准,若需要更改切换时间,请及时调整,切换时间将以调整后的维护时间窗为准 |
事件 中文名称 |
事件 英文名称 |
事件 类型 |
从属维度 | 有无 恢复概念 |
事件描述 | 处理方法和建议 |
---|---|---|---|---|---|---|
备份 oplog 不足 | oplogInsufficient | 异常 事件 |
云数据库 MongoDB 实例维度 | 无 | 云数据库 MongoDB 在备份时,无法读取到上次备份到本次备份的完整 oplog,这将影响您的数据库回档到 7 天内的任意时间点 | 建议在 MongoDB 控制台 调整云数据库 MongoDB oplog 的大小或备份频率;如您不需要该事件通知,可以在 MongoDB 控制台 备份界面进行设置以关闭该事件通知 |
连接数超限 | connectionOverlimit | 异常 事件 |
云数据库 MongoDB 实例维度 | 有 | 实例连接数使用超过限制 | 评估当前实例所配置连接数是否满足业务需求,如果需要更大的连接配置建议,升级腾讯云 MongoDB 数据库实例配置 |
主从切换 | primarywitch | 异常 事件 |
云数据库 MongoDB 实例维度 | 有 | 实例 Primary 和 Secondary 切换 | 当物理机故障时可能会触发该事件,请确认实例状态是否正常 |
磁盘空间已耗尽 | instanceOutOfDisk | 异常 事件 |
云数据库 MongoDB 实例维度 | 有 | 磁盘空间写满,造成实例只读 | 清理磁盘空间 |
实例 Rollback | instanceRollback | 异常 事件 |
云数据库 MongoDB 实例维度 | 有 | 实例数据 rollback | 当主节点有部分数据还没有及时同步到从节点时主节点故障并发生主从切换可能会触发该事件,请确认实例状态是否正常 |
事件 中文名 |
事件 英文名 |
事件 类型 |
从属维度 | 有无 恢复概念 |
事件描述 | 处理方法和建议 |
---|---|---|---|---|---|---|
物理专线 Down | DirectConnecDown | 异常 事件 |
物理专线维度 | 有 | 专线物理链路传输中断或异常 | 1. 检查物理线路是否有异常中断情况(如光纤被挖断,线路被拔出设备等) 2. 检查对接端口及光/电模块是否正常 3. 检查网络设备端口是否被关闭 |
专用通道 Down | DirectConnectTunnelDown | 异常 事件 |
专用通道维度 | 有 | 专线物理链路传输中断或异常 | 1. 检查物理线路是否有异常中断情况(如光纤被挖断,线路被拔出设备等) 2. 检查对接端口及光/电模块是否正常 3. 检查网络设备端口是否被关闭 |
专用通道 BGP 会话 Down | DirectConnectTunnelBGPSessionDown | 异常 事件 |
专用通道维度 | 有 | 专用通道 BGP 会话状态中断 | 1. 检查网络设备 BGP 进程是否正常 2. 检查专用通道是否正常 3. 检查物理线路是否正常 |
BGP 通道路由条目超限告警 | DirectConnectTunnelRouteTableOverload | 异常 事件 |
专用通道维度 | 无 | 专用通道 BGP 会话通道路由条目超过80% | 检查专用通道 BGP 会话发布路由条目是否达到限制条目的80%(默认限制100条,详情请参见专线接入 使用限制) |
专用通道 BFD 检测Down | DirectConnectTunnelBFDDown | 异常 事件 |
专用通道维度 | 有 | 专用通道 BFD 检测中断 | 1. 检查专用通道是否正常 2. 检查物理线路是否正常 |
本页内容是否解决了您的问题?