内存使用率过高

最后更新时间:2021-07-20 11:17:58

    现象描述

    云数据库 MySQL 出现内存突增,内存持续增长不释放的情况。具体表现在实例监控的内存利用率监控图表中,如下图所示:

    在突增之后,或者长期缓慢增长的过程中,最终达到一个过高的水平(>96%),且在一定范围内小幅度变动,有可能会经常性的触发自定义的云监控内存告警。

    故障风险

    低效的 SQL 语句或数据库参数设置不当都可能会导致内存利用率升高,若您使用的是云数据库 MySQL 双节点、三节点架构,遇到突发业务高峰时,可能会导致云数据库内存 OOM(Out Of Memory),当云数据库由于 OOM 导致不可用时,会触发主备切换,主备切换的过程中会导致业务在短时间内不可用,实例不可用的时长正常情况下不超过60秒。如果在业务高峰期发生了主备切换,则会严重影响业务的稳定和连续性。

    解决思路

    MySQL 的内存大体可以分为 global 级的共享内存和 session 级的私有内存两部分:

    • 共享内存是实例创建时即分配的内存空间,并且是所有连接共享的。
    • 私有内存用于每个连接到 MySQL 服务器时才分配各自的缓存。
      一些特殊的 SQL 或字段类型会导致单个线程可能分配多次缓存,因此当出现 OOM 异常,都是由各个连接的私有内存造成的,通过限制数据库的连接数和优化低效 SQL,可降低内存利用率过高的风险,若 MySQL 的内存利用率依然过高,可通过升级内存配置来提升数据库的整体并发量和稳定性。详细的内存参数介绍,请参见 内存分配问题

    处理步骤

    1. 优化慢 SQL,减少 session 级的私有内存使用量。可以通过 DBbrian 对慢 SQL 进行分析
    2. 减少无效的长连接,在不影响业务的情况下,降低程序侧的连接池配置或者降低程序侧的并发度。可以通过 DBbrian 查看当前会话信息
    3. 监控内存使用情况(可选,适用于 MySQL 5.7 及以上版本):开启 performance_schema 的内存监控功能,需要开启 performance_schema 后,在 performance_schema 库中查询名字为 memory_summary 开头的表来得知内存使用情况,例如,全局维度的内存利用率分析表:memory_summary_global_by_event_name。
    4. 优化完成之后的手段:升级云数据库 MySQL 的配置
    说明:

    • 升级过程中不影响业务的正常使用,升级完成后会进行切换,仅有秒级别的闪断,请确保业务具备重连机制。
    • 避免因内存或 CPU 资源不足而影响业务的正常运行,请为现网实例配置资源的合理告警策略,可提前发现资源不足的隐患,详情请参见 告警策略