tencent cloud

容器服务

动态与公告
产品动态
公告
产品发布记录
产品简介
产品概述
产品优势
产品架构
应用场景
产品功能
基本概念
原生 Kubernetes 名词对照
容器服务高危操作
地域和可用区
开源组件
购买指南
购买指引
购买 TKE 标准集群
购买原生节点
购买超级节点
快速入门
新手指引
快速创建一个标准集群
入门示例
容器应用部署 Check List
集群配置
标准集群概述
集群管理
网络管理
存储管理
节点管理
GPU 资源管理
远程终端
应用配置
工作负载管理
服务和配置管理
组件和应用管理
弹性伸缩
容器登录方式
可观测配置
运维可观测性
成本洞察和优化
调度配置
调度组件概述
资源利用率优化调度
业务优先级保障调度
Qos 感知调度
安全和稳定性
容器服务安全组设置
身份验证和授权
应用安全
多集群管理
计划升级
备份中心
云原生服务指南
云原生 etcd
Prometheus 监控服务
TKE Serverless 集群指南
TKE 注册集群指南
实践教程
集群
Serverless 集群
调度
安全
服务部署
网络
发布
日志
监控
运维
Terraform
DevOps
弹性伸缩
容器化
微服务
成本管理
混合云
AI
故障处理
节点磁盘爆满排障处理
节点高负载排障处理
节点内存碎片化排障处理
集群 DNS 解析异常排障处理
集群 Kube-Proxy 异常排障处理
集群 API Server 网络无法访问排障处理
Service&Ingress 网络无法访问排障处理
Service&Ingress 常见报错和处理
Nginx Ingress 偶现 Connection Refused
CLB Ingress 创建报错排障处理
Pod 网络无法访问排查处理
Pod 状态异常与处理措施
授权腾讯云售后运维排障
CLB 回环问题
API 文档
History
Introduction
API Category
Making API Requests
Elastic Cluster APIs
Resource Reserved Coupon APIs
Cluster APIs
Third-party Node APIs
Relevant APIs for Addon
Network APIs
Node APIs
Node Pool APIs
TKE Edge Cluster APIs
Cloud Native Monitoring APIs
Scaling group APIs
Super Node APIs
Other APIs
Data Types
Error Codes
TKE API 2022-05-01
常见问题
TKE 标准集群
TKE Serverless 集群
运维类
隐患处理
服务类
镜像仓库类
远程终端类
事件类
资源管理类
服务协议
TKE Service Level Agreement
TKE Serverless Service Level Agreement
联系我们
词汇表

压缩监控

PDF
聚焦模式
字号
最后更新时间: 2024-06-14 16:32:30
QosAgent 在端口 8084 上提供了一系列指标,用于监控节点和 Pod 内存压缩情况,以及内存和 CPU 的压力情况。用户可以自行配置 Prometheus 和 Grafana 来进行监控。此外,我们还提供了 Grafana 的监控面板模板,方便业务快速查看内存压缩效果(请 提交工单 咨询获取)。

关键指标介绍

对象
指标名称
含义
Pod
pod_pressure_total
Pod 级别 PSI,可以显示每个 Pod 由于缺少 CPU、内存、IO 等资源而产生的等待时长情况。
pod_memory_info
Pod 的内存情况,包括对 Pod 和容器的以下内存指标进行统计:RSS、匿名内存、文件页、活跃内存和非活跃内存。
pod_memory_page_fault_info
Pod 的缺页情况(包含文件页、匿名页缺页情况,major、minor 缺页情况)。
pod_memory_oom_kill
Pod 的 OOM 统计。
Node
node_pressure_total
节点 CPU、IO 和 memory 的 PSI 指标(表明是否某种资源受到限制)。
node_memory_page_fault_distance
refault 频率,表明“热”页面被换出去的情况。
node_memory_page_fault_major
发生磁盘读取的缺页次数。
node_disk_io_time_seconds_total
节点磁盘 IO 总时间(通过 zram0 设备的指标,可以观察到换出、换入到 zram0 的情况)。
node_disk_read_bytes_total
磁盘、zram0 设备 IO 读带宽。
node_disk_reads_completed_total
磁盘、zram0 设备 IO 读取次数(间接表明了内存压缩导致匿名内存缺页的情况)。
node_disk_writes_completed(time_seconds)_total
磁盘/zram0 设备写入次数、总耗时。
node_memory_oom_kill
磁盘、zram0 设备的写入情况。

哪些业务可以被压缩

支持采集业务“冷”页占比作为预估可压缩值,“冷”页包含冷匿名页和冷文件页。根据预估的压缩值和业务属性,可以判断哪些业务可以进行压缩,以及预估压缩量。
Workingset Saved:kubelet 视角观察 “Inactive anon” 的节约值。
Memory Saved:监控视角观察 “Inactive anon + Inactive File” 节约值。

节约多少内存量

每个 Pod 节约的内存大小 = zram 压缩前的大小 - zram 压缩后的大小

内存回收是否准确

观察 “node_memory_page_fault_major” 和 PSI 指标,node_memory_page_fault_major 和 Memory PSI 指标低代表回收较为准确。

业务是否稳定

可关注 Pod/Node 的 OOM 次数、PSI、Zram0 设备的 IO(如 “node_disk_read_bytes_total ”、“node_disk_reads_completed_total ”、“node_disk_writes_completed(time_seconds)_total”)变化情况,OOM 次数、PSI、Zram0 IO 升高均代表不够稳定。

对接腾讯云 Prometheus 监控

2. 在 Prometheus 实例列表中,单击新建的实例 ID/名称
3. 进入 Prometheus 管理中心,在顶部导航栏中单击数据采集
4. 在集成容器服务页面单击关联集群,将集群和 Prometheus 实例关联,详情见 关联集群
5. 在集群列表中单击集群右侧的数据采集配置,选择新建自定义监控,并填写配置信息。
监控类型: 工作负载监控
命名空间:kube-system
工作负载类型: DaemonSet
工作负载:qos-agent
targetPort:8084
metricsPath:/metrics
6. 单击确定
7. 在 grafana 中导入如下两个面板:
集群维度面板,请 提交工单 获取,如下图所示:



节点维度面板,请 提交工单 获取。如下图所示:







帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈