流计算 Oceanus

操作指南

产品文档

本⽂档著作权归腾讯云单独所有，未经腾讯云事先书⾯许可，任何主体不得以任何形式复制、修改、抄袭、传播全部或部分本⽂档内容。

【商标声明】

及其他腾讯云服务相关的商标均为腾讯集团下的相关公司主体所有。另外，本⽂档涉及的第三⽅主体的商标，依法由权利⼈所有。

【服务声明】

本⽂档意在向客户介绍腾讯云全部或部分产品、服务的当时的整体概况，部分产品、服务的内容可能有所调整。您所购买的腾讯云产品、服务的种类、服务标准等应由您与腾讯云之间的商业合同约定，除⾮双⽅另有约定，否则，腾讯云对本⽂档内容不做任何明⽰或默⽰的承诺或保证。

文档目录

操作指南
作业管理
作业概览
作业类型
作业信息
作业操作
作业开发
开发批作业
作业高级参数
作业最大并行度
作业资源配置
版本管理
作业监控
查看作业监控信息
配置作业监控告警（数值指标）
配置作业事件告警（异常事件）
监控指标一览
接入 Prometheus 自定义监控
查看作业 Flink UI
作业日志
配置采集作业运行日志
事件与诊断
日志诊断指南
查看关键事件
各类事件说明
快照失败事件
作业失败事件
TaskManager Pod 异常退出事件
JobManager Pod 异常退出事件
TaskManager Full GC 过久事件
TaskManager CPU 负载过高事件
TaskManager 背压较高/严重事件
JobManager CPU 负载过高事件
JobManager Full GC 过久事件
元数据管理
库表管理
变量管理
使用 Hive Catalog
快照管理
作业调优
作业自动调优
依赖管理
集群管理
查看集群信息
扩容集群
销毁集群
缩容集群
迁移集群
自定义DNS
网络连通性检查
权限管理
权限概述
基础权限配置指引
空间角色权限

操作指南

作业管理

作业概览

最近更新时间：2023-11-08 10:14:44

在作业管理界面内您可以查看作业概览、集群概览等。
通过概览，您可以直观查看当前空间的作业情况（作业的类型数量，作业运行停止数量以及作业异常的数量），查看空间绑定集群的详情等。
说明：
指标告警作业总数为统计本空间内最近1天有未恢复的告警的作业数量。
事件异常作业总数为统计本空间内最近6个小时有异常事件的作业数量。
集群概览展示本空间绑定的包年包月集群的详情。
﻿

作业类型

最近更新时间：2023-11-08 10:15:15

登录 流计算 Oceanus 控制台，目前 Oceanus 在新建作业中支持4种作业类型：SQL 作业、JAR 作业、ETL 作业和 Python 作业。开发人员可根据业务需求与使用场景，选择合适的作业类型进行开发。
SQL 作业类型介绍
SQL 与其他的编程语言相比学习成本较低，使用 SQL 作业进行开发将降低数据开发人员的使用 Flink 门槛。SQL 作业可以快速浏览流中的动态或静态数据，用于构建功能强大的数据转换管道或分析管道。而且 SQL 作业对流批输入有相同语义，可产生同样的计算结果。
JAR 作业类型介绍
JAR 作业是用户基于 Flink DataStream API 或 Flink Table API 业务代码开发的作业类型，开发人员需要对 Java 或 Scala DataStream API 有一定的了解，适合对流计算处理偏底层和复杂要求较高的用户。并且 JAR 作业模式需要用户先在本地开发并编译好 JAR 包。
ETL 作业类型介绍
ETL （抽取、转换、加载）管道任务可以从数据源获取数据，进行一些转换操作和信息补充，将结果存储起来。ETL 作业操作简单便捷，1分钟即可快速构建轻量级 ETL 作业。开发人员甚至不需要了解编程语言，只需要选择数据源表和目的表，根据业务逻辑完成字段映射的配置，即可启动 ETL 作业，对业务系统的数据进行抽取，清洗转换之后加载到数据仓库。
Python 作业类型介绍
Python 作业是用户基于 Python 代码开发的作业类型，开发人员需要对 Python 和支持的库有一定的了解。区别于其他许多编程语言，Python 更容易一些。Python 的语法里面条条框框以及特殊的处理场景较少，它专注于您想用您的代码完成什么，而非语言表现的丰富程度，相对简单易用易上手。开发 Python 作业需要先在本地编写好 Python 文件或者打包好 Zip 程序包，以 Python 程序包的形式上传后方可在控制台配置 Python 作业。

作业信息

最近更新时间：2023-11-08 10:11:57

登录 流计算 Oceanus 控制台，在左侧菜单栏作业管理可查看用户所属作业。选择作业列表中的作业名，可在作业概览页查看作业的详细信息，信息中的各个字段含义如下表所示。
字段
含义
作业名称
该作业的名称（在创建作业中自己填写的自定义名称，可更改）
集群
作业所在集群名称
集群 ID
作业所在集群 ID
作业 ID
该作业的 Serial ID 信息，通常以 cql- 开头（随机分派，不可更改）
作业类型
作业的类型，目前有 JAR、SQL 、Python 和 ETL 四种类型
运行状态
作业的当前状态，例如未初始化、未发布、操作中、运行中、停止、故障等
地域
作业运行的集群所在的地理大区，例如广州、上海、北京等
可用区
作业运行的集群的可用区，例如上海三区
线上版本
正在运行的版本
创建时间
作业被创建的时间点
累计运行时长
作业历史上总共运行的时长
开始运行时间
作业本次开始运行的时间点
运行时长
作业本次运行所持续的时长
计算资源
作业本次运行所占用的 CU 数 = JobManager CU 数 + TaskManager CU 数，其中：JobManager CU 数 = 1（每个作业默认占用1个）TaskManager CU 数 = 最大并行度 * 单个并行度的 CU 数
﻿

作业操作

最近更新时间：2023-11-08 10:12:49

对流计算 Oceanus 作业，您可以进行4种操作：发布、运行、停止、创建副本，这些操作支持批量处理，本文将对这4种操作进行概念解析与讲解。
发布
概念解析
流计算作业草稿开发完成后，单击保存按钮，即可发布为线上版本。流计算作业的发布操作成功后，根据作业的状态，可以执行运行已发布版本或停止线上运行作业操作。
操作步骤
在草稿中完成作业开发后，单击保存按钮，并单击发布草稿，即可发布为线上版本。新版本的版本编号由系统自动生成，用户需输入版本说明。
若线上没有运行中状态的作业，则可以直接运行新发布的版本。
若线上有运行中状态的作业，则需要先停止作业，选择停止时是否创建快照，等待作业完全停止后，再进行运行操作。
运行
概念解析
作业的运行操作与停止操作相对应，表示启动一个新的作业运行实例。对于已经运行中的作业，若需要再次启动运行，可以选择先停止线上运行中的作业，再重新执行运行操作。
操作步骤
当一个作业进入停止状态后，如果需要继续运行，有两种操作方式。
1. 在流计算的作业管理 > 操作中单击更多，然后在下拉菜单中选择运行。随后，作业的状态会变成操作中。一段时间后，最终状态会变成运行中，此时表示作业已经启动成功。
2.发布新版本，并运行新版本。随后，作业的状态会变成操作中。一段时间后，最终状态会变成运行中，此时表示作业已经启动成功。
从快照恢复作业
作业运行时，支持从历史快照恢复。运行作业时，提示如下：
对于没有历史快照的作业，无法使用历史快照运行。
注意
 旧版本的集群不支持手动选择历史快照恢复，如需使用该功能，请提交工单升级集群。
特别提示
在作业的操作过程中，如果遇到任何异常情况，则会回退到作业的实际状态（例如，如果作业在暂停时异常退出，则状态会显示为停止；如果作业暂停不成功，且仍在运行，则回退到运行中），并在状态栏右侧显示一个三角形的叹号，当鼠标移过时，会显示出具体的报错信息。
对于常见的错误信息会有对应的操作建议。
如有全英文报错信息，不便理解时，您可通过 售后在线支持 咨询，我们会持续优化报错信息的展示。
注意
 在作业的运行过程中，请务必谨慎修改上下游对接产品的配置，包括但不限于对 CKafka 数据源和数据目的所使用的 Topic 做删除、扩容；以及对 MySQL 数据源和数据目的所使用的库表做锁表、修改表结构、新增约束、停机等，否则会对正在运行的流计算作业造成影响，导致数据不完整或作业异常。
停止
概念解析
作业的停止操作表示终止当前作业的执行，并选择是否保存所有运行时的状态。
操作步骤
当一个作业进入运行中状态后，如果需要停止运行，有两种操作方式。
1. 可在流计算的作业管理 > 操作中单击更多，然后在下拉菜单中选择停止。作业的状态即会变成操作中。一段时间后，最终状态会变成停止，此时表示作业已经完全停止运行。
2. 发布新版本，并选择停止当前版本。随后，作业的状态会变成操作中。一段时间后，最终状态会变成停止，此时表示作业已经完全停止运行。
注意
如果您希望保留作业当前的运行状态，并让作业下次启动时可以从上次停下的地方开始消费，请勾选停止时创建快照。
创建副本
概念解析
可以快速创建作业的副本，方便您做作业迁移或者同类作业的开发。
操作步骤
单个副本创建
1. 进入作业详情页，可以在右上方的作业操作下拉选项选择创建副本。
2. 单击创建副本，会弹出选择框，选择目标目录，目标集群，填写副本名称。
3. 单击确认，会弹出结果框。
4. 然后单击作业名称可以跳转到新作业的详情页。
批量创建副本
1. 单击作业列表左侧的批量操作，选择批量创建副本。
2. 单击批量创建副本，勾选需要批量创建副本的作业。
3. 单击创建副本，会弹出选择框，选择目标集群，批量创建副本不能选择目标目录，默认副本目录和源作业保持一致。
4. 单击确认，会弹出结果框，展示成功和失败的结果。
注意
如果目标集群不支持源作业的 Flink 版本，作业副本的 Flink 版本将和目标集群默认 Flink 版本保持一致。
如果源作业设置了细粒度资源，但是目标集群不支持细粒度资源的，作业资源配置的 JobManager 规格 和 TaskManager 规格设置为 1CU。
作业只能在工作空间内部复制，目标集群只能选择已绑定给当前空间的集群。
创建副本生成的作业，历史作业的快照会同步到新作业中，仅同步历史作业手动触发的可用快照，并且快照的路径与历史作业相同。

作业开发

开发批作业

最近更新时间：2023-11-08 10:09:41

流计算 Oceanus 支持批作业开发，目前批作业支持以下作业类型：JAR 作业、Python 作业。 
JAR 作业
以下这个例子展示了如何在 JAR 作业代码中配置批作业执行模式：
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setRuntimeMode(RuntimeExecutionMode.BATCH);
1. 只需将流作业中的 RuntimeExecutionMode.STREAMING 修改为 RuntimeExecutionMode.BATCH 即可实现批作业开发。
2. 把修改后的批作业重新打成 JAR 包上传至平台的依赖管理中。
3. 在平台的 JAR 作业开发中使用对应 JAR 包，完成 JAR 批作业开发。
Python 作业
以下例子展示了如何在 Python 作业代码中配置批作业执行模式：
env_settings = EnvironmentSettings.new_instance().in_batch_mode().use_blink_planner().build()
table_env = TableEnvironment.create(env_settings)
1. 只需将流作业中的 EnvironmentSettings.new_instance().in_streaming_mode() 修改为 EnvironmentSettings.new_instance().in_batch_mode() 即可实现批作业开发。详情可查看 Python Table API 简介。
2. 把修改后的批作业重新打成 py 文件上传至平台的依赖管理中。
3. 在平台的 Python 作业开发中使用对应 py 文件，完成 Python 批作业开发。

作业高级参数

最近更新时间：2025-11-11 16:26:52

简介
用户可在作业参数 > 高级参数中配置更多自定义 Flink 参数来实现作业行为的微调，例如设置作业的重启策略、调整 SQL 的 Mini-Batch 配置、关闭异步快照、设置快照最小间隔、调整 RocksDB StateBackend 的缓存大小等。
自定义高级参数需按照 YAML 语法，以 “key: value” 的形式进行配置，英文冒号与 value 之间需要加上空格。修改作业参数后需重新发布并启动作业才能生效。Flink 1.11的参数具体说明详见社区 官方文档。
示例
设置作业的状态后端（State Backend）
默认情况下，Oceanus 采用 RocksDB State Backend，这个状态后端允许超大的状态存取，但是吞吐量和性能方面比基于内存的 FileSystem State Backend 差很多。
如果您的作业状态用量很小，且对延迟、吞吐量要求很高，可以使用下面的语句切换到基于内存的 FileSystem State Backend：
state.backend: filesystem
配置作业重启策略和阈值
默认情况下，Flink 作业崩溃后只有5次内部重启（JobManager 存活时的热重启，大概15s 左右）的机会。超过阈值后再次发生崩溃时，JobManager 会主动退出，导致作业需要经历一个较长时间（约3 - 5分钟）的冷恢复过程；对于未开启快照的作业，可能造成较多的状态和数据丢失。
如果您希望调整作业内部允许的重启次数，可以配置下面的参数（该参数允许作业内部重启最多100次，请酌情调整）：
restart-strategy: fixed-delay
restart-strategy.fixed-delay.attempts: 100
restart-strategy.fixed-delay.delay: 5 s
配置 JVM Overhead 比例
默认情况下，Flink 给 JVM 堆外原生内存（Overhead）的比例是0.1（即10%）。当使用 RocksDB 状态后端时，对此区域内存需求较大，可能会出现超额使用而造成 JVM 被容器管控系统 KILL。为了减少这种情况出现，增加使用 RocksDB 状态后端作业的稳定性，可以适当调大该参数比例。
注意
调大该堆外参数会导致 JVM 堆内存可用比例下降，作业更容易出现堆内 OOM，请在必要时再做调整。
taskmanager.memory.jvm-overhead.fraction: 0.3
配置 At Least Once 快照策略
默认情况下，流计算 Oceanus 使用 Exactly-Once 作为默认的快照策略，该策略可以确保作业崩溃恢复后，有最精确的状态一致性，但是少数情况下可能会造成较大延迟。
如果允许作业崩溃恢复时，一部分重复数据再次参与计算（造成短期的结果不精确），可以通过调整 Flink 的快照策略为 At Least Once，这样会取得更好的快照性能，尤其是对于状态超大且多个流之间的速度不一致时效果明显。
execution.checkpointing.mode: AT_LEAST_ONCE
关闭 Operator Chaining 功能
默认情况下，Flink 会将运行图中相同并行度的算子尽可能的绑在一起，避免数据上下游传输的序列化、反序列化额外开销。如果出于定位问题的角度，希望看到每个算子的数据流入流出情况，则可以关闭这个 Operator Chaining 功能。
注意
关闭此功能后，作业的运行效率可能会大幅下降，请谨慎使用。
pipeline.operator-chaining: false
设置作业的快照超时时间
默认情况下，Oceanus 快照超时时间为 20 分钟（1200s）。
如果您的作业状态用量很大，可以使用以下参数配置较大的超时时间：
execution.checkpointing.timeout: 3000s
或者减小快照超时时间：
execution.checkpointing.timeout: 1000s
同时，需要在 SQL 作业的编辑页面中添加以下语句，语句的值设为与超时时间配置相同的值，参考Flink 配置项：
set CHECKPOINT_TIMEOUT= '1000 s'; 
设置作业快照保存策略
Oceanus 中 Flink 作业支持的快照保存策略为：DELETE_ON_CANCELLATION, RETAIN_ON_CANCELLATION 和 RETAIN_ON_SUCCESS。Flink 作业默认快照保存策略为 DELETE_ON_CANCELLATION，如果不设置该参数，自动采用默认策略。
以下为快照保存策略的对比：
快照保存策略
快照清理行为
DELETE_ON_CANCELLATION （默认策略）
1. 停止时快照，原有 Checkpoint 删除，无法从 Checkpoint 恢复
2. 停止时不进行快照，原有 Checkpoint 删除，无法从 Checkpoint 恢复
RETAIN_ON_CANCELLATION
1. 停止时快照，原有 Checkpoint 删除，无法从 Checkpoint 恢复 
2. 停止时不进行快照，原有 Checkpoint 不删除，可以从 Checkpoint 恢复
RETAIN_ON_SUCCESS
1. 停止时快照，原有 Checkpoint 不删除，可以从 Checkpoint 恢复
2. 停止时不进行快照，原有 Checkpoint 不删除，可以从 Checkpoint 恢复
用户可以在 “作业参数 - 高级参数” 中设置作业快照保存策略，设置后重启作业才能生效。
execution.checkpointing.externalized-checkpoint-retention: RETAIN_ON_SUCCESS
注意
对于 Jar/PyFlink 类型的作业，建议用户不要在 Jar 包中显式设置作业快照保存策略，因为 Jar 包内设置的作业快照保存策略会覆盖高级参数中的设置。
更多的配置参数
Flink 提供了很多其他的配置参数，完整的列表可以参见 Flink 官方文档。
注意
 不是所有参数都可以用在 Oceanus 平台，请仔细阅读下面的使用限制，并在充分了解问题和风险的情况下再做调整，避免调参失误造成的作业运行不稳定、无法启动等事故。
使用限制
以下参数由流计算 Oceanus 系统固定设置，禁止进行自定义修改，请勿在高级参数中传入。
禁用参数
kubernetes.container.image
kubernetes.jobmanager.cpu
taskmanager.cpu.cores
kubernetes.taskmanager.cpu
jobmanager.heap.size
jobmanager.heap.mb
jobmanager.memory.process.size
taskmanager.heap.size
taskmanager.heap.mb
taskmanager.memory.process.size
taskmanager.numberOfTaskSlots
env.java.opts（但是允许用户配置 env.java.opts.taskmanager 和 env.java.opts.jobmanager 两个独立参数）
﻿

作业最大并行度

最近更新时间：2023-11-07 18:31:56

每个 Flink 作业都有一个名为最大并行度（Maximum Parallelism，简称 MaxParallelism）的属性，它决定了 Flink 作业无损扩容的上限。
Maximum Parallelism 参数涉及到 Flink 最底层的状态分配逻辑，因此一旦设定，就不允许随意更改。如果一定要修改该值（例如希望扩容到超过 MaxParallelism 的 CU 数），那么 Flink 就只能丢弃现有运行时状态，重新开始。
换句话说，如果对 Flink 作业作业进行快照（例如触发 Checkpoint、Savepoint 等），那么从这个快照恢复时，新指定的算子最大并行度不能超过这个值，否则 Flink 会抛出异常并终止启动。如果不从快照启动作业，则 Flink 仍可正常启动。
参数说明
默认情况下，新建的作业草稿作业参数 > 高级参数已经自带了该配置，用户无需手动修改。如果用户删掉这个配置项，则 Flink 的最大并行度默认取值为2048。 
注意
 在2021年4月14日版本更新前创建的作业，最大并行度默认取值为128，若需要将这些作业扩容至超过128个并行度，则需要手动修改该参数值，并丢弃现有运行时状态后重新启动作业。
通常情况下用户无需关注最大并行度的设置，只有在作业中所有算子的最大并行度超过 MaxParallelism 时，或者希望显式限制作业的最大扩容能力时，才需要设置该参数。
注意事项
pipeline.max-parallelism 的最小取值是作业中的所有算子的最大并行度，例如一个作业有5个算子，各个算子的并行度依次是[1, 5, 100, 2, 2]，那么 pipeline.max-parallelism 能设置的最小值是100。
Oceanus 平台上的 pipeline.max-parallelism 最大值硬限制为16384，但我们强烈建议将 pipeline.max-parallelism 维持在 2048 及以下的数值，以避免增加无谓的运行开销，或降低作业的处理能力。

作业资源配置

最近更新时间：2023-11-08 10:06:05

简介
用户可在作业参数 > 资源配置中配置 JobManager 规格、TaskManager 规格、算子默认并行度。通过资源配置可以配置符合作业需求的计算资源。
流计算服务目前支持三种规格的计算单元：0.5CU、1CU、2CU，JobManager 和 TaskManager 可以分别设置不同的规格。其中0.5CU为细粒度资源，默认只有部分新建集群支持细粒度资源，历史集群将不会出现配置 JobManager 和 TaskManager 的选项，如果您的历史集群有相关需求，可用通过 在线客服 联系我们。
作业实际占用的 CU 数目
作业实际占用的 CU 数目 = JobManager 规格 + TaskManager 规格 × 作业中所有算子最大的并行度。 
用户可以通过资源配置下方提示的作业最大可用资源数目，调整规格和算子默认并行度。如图所示该作业最大可用资源为8CU，因此调节 TaskManager 规格为2CU时，算子默认并行度最大值为3。
低资源消耗场景的资源配置
部分作业的场景大多数时间无数据同步，如果使用粒度为1CU的资源会存在浪费。可以按如图所示，调整 JobManager 规格和 TaskManager 规格为0.5，算子默认并行度为1，此时该作业消耗资源1CU，减少了资源浪费。
常见问题
1. 什么是细粒度资源？
细粒度资源是指计算资源单元规格可小于1CU的资源（1CU的具体含义为：CPU 1核、内存 4GB），流计算服务目前支持三种规格的计算单元：0.5CU、1CU、2CU，JobManager 和 TaskManager 可以分别设置不同的规格。
2. 为什么会出现作业实际运行并行度达不到作业最大并行度的情况？
在资源配置中使用细粒度资源的过程中，极小概率可能产生资源碎片影响作业运行，可能产生作业实际运行并行度达不到作业最大并行度的情况。您可以通过合理的资源规格选择来尽量地避免资源碎片。如果产生以上情况，您可通过 在线客服 联系我们解决。

版本管理

最近更新时间：2023-11-08 10:07:48

使用版本管理可以对作业回滚历史版本，增加操作的容错率。 
在开发调试页的右上角单击版本管理可以在侧边弹窗中查看当前作业发布过的所有历史版本，单击某个版本，可以查看该版本的作业信息，但不可编辑。在版本管理弹窗中可以删除不需要的历史版本或对比不同版本的代码和配置差异。
切换版本
若切换至某个已发布过的历史版本，需要先停止线上作业，停止后可以单击启动再次运行该版本，无需输入版本说明，只需根据作业的状态选择运行策略，再单击确认即可启动。
版本对比
为了方便进行版本管理，您可以通过版本对比功能了解不同版本之间的差别，选择您需要的版本运行。版本对比功能支持对 SQL 作业的不同版本进行 SQL 代码和配置的对比。
首先在版本管理中选择一个版本作为您的初始对比版本，单击对比按钮。
单击后进入版本对比弹窗，此时显示的代码为您刚刚选择的代码版本。您可以单击左侧的版本选择框中版本与当前版本进行对比。
代码对比的差异会高亮展示出来，方便进行对比。
单击配置对比，即可查看作业版本配置的对比详情。
﻿
版本删除
在版本管理弹窗中点击对应版本后的删除按钮可以删除不需要的历史版本（不能删除正在运行的版本）。
﻿

作业监控

查看作业监控信息

最近更新时间：2023-11-07 18:07:31

监控功能简述
对于正在运行（或者曾经成功运行过）的流计算作业，用户有两种方式查看监控信息。
通过 Oceanus 控制台查看
登录 流计算 Oceanus 控制台，单击要查看的作业名称，并切换到监控页签，即可查看作业的各项关键指标，例如每秒输入输出的数据条数，算子处理耗时，CPU 及堆内存的使用率等。 
BETA 功能：在北京、广州、上海等主要地区，用户在监控页还可以查看 JobManager、TaskManager 和 Task 级别的细粒度指标。
通过腾讯云可观测平台查看
在控制台的作业列表界面，单击右侧的腾讯云可观测平台，即可进入 腾讯云可观测平台控制台，查看更为详细的监控指标。在此还可以配置作业专属的监控告警策略。
说明
此外，流计算 Oceanus 还支持将 Flink 指标上报到 Prometheus，用户可以自行保存、分析和展示作业的各项指标。
Oceanus 控制台图文说明
在 Oceanus 控制台的作业管理页，可以查看作业的运行情况。
以上图的作业 high_cpu 任务为例，单击作业名称/ID进入详情页。
在监控页签的概览页，可以选择不同的时间维度：
时间维度可选择近1小时、近1天、近7天，还可以自定义时间区间。
采样粒度有1分钟粒度与5分钟粒度两个选项，后者的曲线会更加平滑。
概览维度指标
在概览页面，我们可以查看作业运行时最关键的指标，例如每秒输入输出条数、算子计算总耗时、目的端 Watermark 与当前时间戳的延时、作业崩溃重启次数、TaskManager CPU、堆内存的平均使用率、老年代 GC 统计等，助力用户快速发现作业的常见异常。
Checkpoint 维度指标（BETA）
注意
 Checkpoint 维度指标当前仅在广州、北京、上海的地域提供试用，其他地域敬请期待。
当作业开启 checkpoint 功能后，Flink 作业运行信息会以 Checkpoint（历史快照）的方式进行保存，供后续恢复使用。本监控页面会显示如下指标：
上次 Checkpoint 大小（字节）：上个快照存储的大小
Checkpoint 耗时（毫秒）：上个快照存储所耗时间
Checkpoint 失败总次数（次）：保存快照累计失败次数
JobManager 维度指标（BETA）
注意
 JobManager 维度指标当前仅在广州、北京、上海的地域提供试用，其他地域敬请期待。
一个 Flink 作业启动时只有一个 JobManager（简称 JM），所以这里展示的是该 JobManager 的各项指标：
JM CPU Load（%）：对应 JobManager 的 Status.JVM.CPU.Load 代表 JVM 最近 CPU 利用率
JM Heap Memory（字节）：JobManager 维度的堆内存使用情况
JM GC Count（次）：JobManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Count，GC（垃圾回收）次数
JM GC Time（毫秒）：JobManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Time，GC（垃圾回收）时间
TaskManager 维度指标（BETA）
注意
 TaskManager 维度指标当前仅在广州、北京、上海的地域提供试用，其他地域敬请期待。
一个 Flink 作业启动时根据并发度设置，会有1个或多个 TaskManager。我们在列表中会展示出所有 TaskManager，用户可以选择观察哪个 TaskManager 的指标趋势。当前提供的 TaskManager 指标有：
CPU Load（%）：对应 TaskManager 维度的 Status.JVM.CPU.Load 代表 JVM 最近 CPU 利用率
Heap Memory（字节）：TaskManager 维度的堆内存使用情况
GC Count（次）： TaskManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Count，GC（垃圾回收）次数
GC Time（毫秒）：TaskManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Time，GC（垃圾回收）时间
Pod Memory（字节）：TaskManager 所在的 TKE（容器服务）Pod 的内存使用量。该指标能反映出整个 Pod 内存的使用情况（包含 JVM 堆内存、堆外 Direct 内存、堆外原生内存、Pod 里其他辅助服务的内存使用量等）。如果占用过大，有被强制 OOM Killed 的风险
Pod CPU（%）：TaskManager 所在的 TKE（容器服务）Pod 的 CPU 利用率。该指标能反映出整个 Pod 最近的 CPU 利用率（包含 JVM 自身的 CPU 用量、Pod 里其他辅助服务的 CPU 用量等）
Task 维度指标（BETA）
注意
 Task 维度指标当前仅在广州、北京、上海的地域提供试用，其他地域敬请期待。
Flink 作业的运行图中会有一个或多个 Task，用户可以通过趋势图查看具体某个 Task 的各项指标：
OutPoolUsage：输出队列百分比，达到100%时任务达到反压状态，反压状态需要通过一些方法（除却负载均衡情况，需要调大算子并发度来解决反压）解决
OutputQueueLength：有多少个输出队列
InPoolUsage：输入队列百分比，达到100%时任务达到反压状态，反压状态需要通过一些方法（除却负载均衡情况，需要调大算子并发度来解决反压）解决
InputQueueLength：有多少个输入队列
CurrentInputWatermark：当前水位

配置作业监控告警（数值指标）

最近更新时间：2023-11-08 10:19:21

流计算 Oceanus 的数值指标监控告警策略是通过腾讯云可观测平台服务来实现的。本文针对一些常见的场景进行描述，更多详情可参见腾讯云可观测平台官方文档的 告警概述。
注意
 腾讯云可观测平台目前已关闭事件告警的配置能力，现在该功能已逐步迁移到 EventBridge，请参见 配置作业事件告警（异常事件） 文档来配置各类异常事件的告警。
查看作业告警策略
在 腾讯云可观测平台控制台 中选择告警管理 > 策略管理，默认可以查看所有产品的告警策略配置。在页面右上角搜索框中输入“流计算 Oceanus”，即可查看所有为流计算作业配置的告警项。
新增作业告警策略
1. 在 流计算 Oceanus控制台 中选择告警管理 > 策略管理，单击新建策略，输入策略名称，并填写可选的备注信息。
2. 在策略类型下拉框中选择“流计算 Oceanus”，即提示选择“告警对象”。这里可以针对特定作业，或者所有作业进行策略配置，按 Shift 键即可多选。
3. 告警对象选择完毕，可选择“触发条件”。在 触发条件模板 中选择已经配置好的模板，或者新增模板。另外，如果不需要使用模板，则可以选择“配置触发条件”，这里可以对上述的多项监控指标做阈值配置和告警。
4. 选择告警渠道，设置接收对象、有效时段、接收渠道和接收语言等信息，并配置接口回调（可选）。
5. 当所有内容配置完毕，单击完成，新建告警策略即立刻生效。
注意
 “作业重启次数”和 “checkpoint 失败总次数”指标是累加型指标，配置监控告警的时候请使用环比的告警策略。
作业按标签配置告警
1. 在 标签 中选择标签列表 > 新建标签。
标签键和标签值，单击确定。
2. 在创建作业或作业概览中选择标签。
作业概览页面中编辑标签：
编辑标签后单击确定即可。
3. 在 腾讯云可观测平台控制台 中选择告警管理 > 策略管理 > 新建策略 中选择按标签进行告警。
4. 配置告警通知。

配置作业事件告警（异常事件）

最近更新时间：2023-11-08 16:37:11

流计算 Oceanus 产品支持多种作业的 异常事件检测与展示。当异常事件发生后，会推送到用户的 EventBridge 事件总线服务。用户可以在 EventBridge 的 事件规则 面板上，配置相关事件匹配规则，以接收 Oceanus 后台发来的各类事件。
目前 EventBridge 的告警渠道支持短信、电话、邮件、站内信、企业微信机器人、Webhook 接口回调等，且暂未收费，请按需使用。
注意
所有地域的流计算作业事件，都会上报到 EventBridge 广州地域，名为 default 的 “云服务事件集”，如下图。如果在配置规则时选择了其他地域或其他事件集，则无法收到事件推送。
对于单个账号，24 小时内请勿发送超过 1000 条消息，以免触发限频而导致收不到告警。
查看作业告警策略
1. 打开 EventBridge 的 事件规则 面板，选择广州区，即可查看配置过的所有规则列表。
2. 单击每条规则右边的 编辑 按钮，可以查看规则的详情，例如匹配哪些云产品的事件，推送目标渠道等。
新增作业告警策略
1. 打开 EventBridge 的 事件规则 面板，选择广州区，单击新增事件规则按钮。
2. 在新建事件规则面板，在基础信息栏目，输入规则名称，以及规则描述。建议规范化命名，避免后续难以区分。
3. 在事件匹配栏目，事件模式选择云服务预设事件，云服务类型选择流计算 Oceanus，事件类型可以选择全部事件或自行选择需要订阅的事件（事件名区分大小写）。此外，EventBridge 支持非常灵活的 事件模式配置，可以根据实际需求，对事件名等字段进行前缀匹配、后缀匹配、除外匹配、包含匹配等过滤。
单击 自定义事件或编辑匹配规则可以在事件匹配规则 JSON 中根据相关字段进行过滤。
说明：在事件匹配规则 JSON 中可以根据作业 ID、作业目录、作业创建人、集群、空间等维度来为作业配置事件告警，用户可以在 data 对应字段后填写具体的值，根据对应条件触发事件告警。更多用法请参见  事件模式 。
常用字段如下表所示：
字段名
说明
例
instanceId
作业ID
cql-xxxxxx
folderId
作业所在目录ID
folder-xxxxxxxx
creatorUin
作业创建人uin
123456
clusterId
作业所在集群ID
cluster-xxxxxxxx
workSpaceId
作业所在工作空间ID
space-xxxxxxxx
其他字段可参考 事件类型 的 事件示例。
4. 在 事件目标 栏目，触发方式选择消息推送，然后配置接收对象、通知时段、告警渠道、接口回调等。
5. 勾选立即启用事件规则，单击确认按钮，即可等待后续事件的推送。

监控指标一览

最近更新时间：2023-11-07 18:17:39

通过查阅监控指标一览，您可以了解到监控指标中每个指标的指标含义。这有助于您更好的使用 Oceanus 的监控功能。 
监控指标一览
注意
 您可以在 腾讯云可观测平台控制台 > 流计算 Oceanus 查看以下指标，同时也可以 配置告警。
指标中文名
指标含义
示例值
作业每秒输入的记录数
作业所有数据源（Source）每秒输入的数据总条数
22478.14 Record/s
作业每秒输出的记录数
作业所有数据目的（Sink）每秒输出的数据总条数
12017.09 Record/s
作业每秒输入的数据量
作业所有数据源（Source）每秒输入的数据总量（仅对 Kafka Source 有效）
786576 Byte/s
作业每秒输出的数据量
作业所有数据目的（Sink）每秒输出的数据总量（仅对 Kafka Sink 有效）
156872 Byte/s
算子计算总耗时
数据流经各个算子时的耗时总和。可能存在采样误差，数值仅供参考
275 ms
目的端 Watermark 延时
当前时间戳与数据目的（Sink）输入侧 Watermark 之间的差值（多个 Sink 则取最大值）
5432 ms
TaskManager CPU 使用率
作业中所有 TaskManager 的平均 CPU 使用率
23.85%
TaskManager 堆内存使用率
作业中所有 TaskManager 的平均堆内存使用率
57.12%
TaskManager 堆内存用量
作业中所有 TaskManager 的当前堆内存用量总和
830897056.00 Bytes
TaskManager 已提交的堆内存容量
作业中所有 TaskManager 已提交（committed）的堆内存容量总和
4937220096.00 Bytes
TaskManager 堆内存最大容量
作业中所有 TaskManager 的堆内存最大（max）容量总和
4937220096.00 Bytes
TaskManager 非堆内存用量
作业中所有 TaskManager 非堆内存（JVM 元空间、代码缓存等）用量总和
296651064.00 Bytes
TaskManager 已提交的非堆内存容量
作业中所有 TaskManager 已提交（committed）的非堆内存（JVM 元空间、代码缓存等）用量总和
103219200.00 Bytes
TaskManager 非堆内存最大容量
作业中所有 TaskManager 非堆内存（JVM 元空间、代码缓存等）最大容量总和
780140544.00 Bytes
所有 TaskManager JVM 的物理内存用量的最大值
作业中所有 TaskManager 所在的 JVM 的物理内存用量（RSS）的最大值，包括堆内、堆外、Native 等所有区域的总内存用量。该指标可用于对容器 OOM Killed 事件的预警
3597035110.00 Bytes
TaskManager 堆外直接内存缓存数
作业中所有 TaskManager 堆外直接内存（Direct Buffer Pool）中的缓存（Buffer）个数之和
10993.00 Items
TaskManager 堆外直接内存用量
作业中所有 TaskManager 堆外直接内存（Direct Buffer Pool）的用量之和
360328431.00 Bytes
TaskManager 堆外直接内存总容量
作业中所有 TaskManager 堆外直接内存（Direct Buffer Pool）的最大容量之和
360328431.00 Bytes
TaskManager 堆外映射内存缓存数
作业中所有 TaskManager 堆外映射内存（Mapped Buffer Pool）中的缓存（Buffer）个数之和
4 Items
TaskManager 堆外映射内存用量
作业中所有 TaskManager 堆外映射内存（Mapped Buffer Pool）的用量之和
33554432.00 Bytes
TaskManager 堆外映射内存总容量
作业中所有 TaskManager 堆外映射内存（Mapped Buffer Pool）的最大容量之和
33554432.00 Bytes
JobManager 老年代 GC 次数
当前作业 JobManager 老年代 GC 次数
3.00 Times
JobManager 老年代 GC 时间
当前作业 JobManager 老年代 GC 时间
701.00 ms
JobManager 年轻代 GC 次数
当前作业 JobManager 年轻代 GC 次数
53.00 Times
JobManager 年轻代 GC 时间
当前作业 JobManager 年轻代 GC 时间
4094.00 ms
最近一次的 Checkpoint 耗时
当前作业最近一次的 Checkpoint 耗时
723.00 ms
最近一次的 Checkpoint 大小
当前作业最近一次的 Checkpoint 大小
751321.00 Bytes
TaskManager 老年代 GC 次数
作业中所有 TaskManager 老年代 GC 次数之和
9.00 Times
TaskManager 老年代 GC 时间
作业中所有 TaskManager 老年代 GC 时间之和
2014.00 ms
TaskManager 年轻代 GC 次数
作业中所有 TaskManager 年轻代 GC 次数之和
889.00 Times
TaskManager 年轻代 GC 时间
作业中所有 TaskManager 年轻代 GC 时间之和
15051.00 ms
Checkpoint 成功完成次数
当前作业 Checkpoint 成功完成次数
11.00 Times
Checkpoint 失败次数
当前作业 Checkpoint 失败（例如超时、遇到异常等）的次数
1.00 Times
正在进行的 Checkpoint 个数
当前作业进行中（未完成）的 Checkpoint 个数
1.00 Times
Checkpoint 总次数
Checkpoint 总次数（进行中、已完成和失败的总和）
13.00 Times
严重异常数据个数
算子中发生严重异常（例如抛出各种 Exception）的数据个数，如果大于1则会影响 Exactly-Once 语义（试验参数，仅供参考）
0.00 Times
当前实例崩溃重启次数
当前实例 JobManager 记录的任务崩溃重启次数（不含 JobManager 退出后作业重新拉起的场景）
10.00 Times
JobManager 堆内存使用率
当前作业 JobManager 堆内存使用率
31.34%
JobManager 堆内存的用量
当前作业 JobManager 堆内存的用量
1040001560.00 Bytes
JobManager 已提交的堆内存容量
当前作业 JobManager 已提交（committed）的堆内存容量
3318218752.00 Bytes
JobManager 堆内存最大容量
当前作业 JobManager 堆内存最大容量
3318218752.00 Bytes
JobManager 非堆内存用量
当前作业 JobManager 非堆内存（JVM 元空间、代码缓存等）用量
117362656.00 Bytes
JobManager 已提交的非堆内存容量
当前作业已提交（committed）的 JobManager 非堆内存（JVM 元空间、代码缓存等）容量
122183680.00 Bytes
JobManager 非堆内存最大容量
当前作业 JobManager 非堆内存（仅限 JVM 元空间、代码缓存等）的最大容量
780140544.00 Bytes
JobManager 所在的 JVM 的物理内存用量
当前作业 JobManager 所在的 JVM 的物理内存用量（RSS），包括堆内、堆外、Native 等所有区域的总内存用量。该指标可用于对容器 OOM Killed 事件的预警
3597035110.00 Bytes
JobManager CPU 使用率
当前作业 JobManager 的 CPU 使用率
7.12%
JobManager CPU 使用时长
当前作业 JobManager CPU 使用时长（毫秒）
834490.00 ms
作业中断运行时间
对于失败或恢复等非运行状态的作业，表示本次中断运行的时长。对于正在运行中的作业，值为0
1088466.00 ms
作业无中断持续执行的时间
对于运行中的作业，表示当次作业持续处于运行中的时长
202305.00 ms
作业重启耗时
作业最近一次重启耗时
197181.00 ms
作业最近一次恢复的时间戳
作业最近一次从快照恢复的 Unix 时间戳（以毫秒为单位，如果未恢复过则是-1）
1621934344137.00 ms
JobManager 堆外映射内存缓存数
JobManager 堆外映射内存（Mapped Buffer Pool）中的缓存（Buffer）个数
4.00 Items
JobManager 堆外映射内存的使用量
JobManager 堆外映射内存（Mapped Buffer Pool）的用量
33554432.00 Bytes
JobManager 堆外映射内存的总容量
JobManager 堆外映射内存（Mapped Buffer Pool）的最大用量
33554432.00 Bytes
JobManager 堆外直接内存中的缓存数
JobManager 堆外直接内存（Direct Buffer Pool）中的缓存（Buffer）个数
22.00 Items
JobManager 堆外直接内存使用量
JobManager 堆外直接内存（Direct Buffer Pool）的用量
575767.00 Bytes
JobManager 堆外直接内存总容量
JobManager 堆外直接内存（Direct Buffer Pool）的最大用量
577814.00 Bytes
注册的 TaskManager 数
当前作业已注册的 TaskManager 数，通常等于所有算子并行度的最大值。如果 TaskManager 个数减少，说明存在 TaskManager 失联，作业可能崩溃并尝试恢复
3.00 TaskManagers
运行中的作业数
正在运行中作业数。如果作业正常运行，则值为1。如果作业崩溃，则值为0
1.00 Jobs
可用任务槽数量
如果作业正常运行，则可用的任务槽（Task Slot）数为0。如果不为0，则说明作业可能出现短时间的非运行状态
0.00 Slots
任务槽总数
Oceanus 中一个 TaskManager 只有一个任务槽，因此任务槽总数等于注册的 TaskManager 数
3.00 Slots
JobManager 活动线程数
当前作业 JobManager 中活动的线程数，含 Daemon 和非 Daemon 线程
77.00 Threads
TaskManager CPU 使用时长
作业中所有 TaskManager CPU 使用时长总和（毫秒）
2029230.00 ms
TaskManager 可用的 MemorySegment 个数
作业中所有 TaskManager 的可用 MemorySegment 个数之和
32890.00 Items
TaskManager 已分配的 MemorySegment 总数
作业中所有 TaskManager 已分配的 MemorySegment 个数总和
32931.00 Items
TaskManager 活动线程数
作业中所有 TaskManager 中活动的线程数之和，含 Daemon 和非 Daemon 线程
207.00 Threads
上次 Checkpoint 大小
上个快照存储的大小
1024字节
Checkpoint 耗时
上个快照存储所耗时间
100ms
Checkpoint 失败总次数
保存快照累计失败次数
1次
JM CPU Load
JobManager 维度的 JVM 最近 CPU 利用率
12%
JM Heap Memory
JobManager 维度的堆内存使用情况
1次
JM GC Count
JobManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Count，GC（垃圾回收）次数
5次
JM GC Time
JobManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Time，GC（垃圾回收）时间
64ms
TaskManager CPU Load
选中的 TaskManager 维度的 JVM 最近 CPU 利用率
70%
TaskManager Heap Memory
选中的 TaskManager 维度的堆内存使用情况
50字节
TaskManager GC Count
选中的 TaskManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Count，GC（垃圾回收）次数
5次
TaskManager GC Time
选中的 TaskManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Time，GC（垃圾回收）时间
5ms
Task OutPoolUsage
输出队列百分比，达到100%时任务达到完全反压状态
64%
Task OutputQueueLength
输出队列个数
6
Task InPoolUsage
输入队列百分比，达到100%时任务达到完全反压状态
64%
Task InputQueueLength
输入队列个数
6
Task CurrentInputWatermark
当前水位
1623814418
数据流入耗时(ETL)
当前作业 Source 拿到数据已经产生的延迟时间
10 ms
作业每秒输入的记录条数(ETL)
当前作业所有 source 的加和速率
342 条/秒
批间隔时间(ETL)
当前作业 Source 处理数据的批间隔，间接反应 source 空闲状态
24532223 ms
source 处理延迟(ETL)
当前作业 Source 拿到数据并处理的延迟时间
1345 ms
Binglog/lsn 的位点信息(ETL)
当前作业 mysql binlog 的 pos 点位/pg 的 lsn 号
260690147
算子计算总耗时(ETL)
当前作业统计 Sink 与 Source算子之间的平均延迟时间
49 ms
sink 刷新延迟(ETL)
当前作业 sink 的延迟 flush 时间+异步回调时间
30 ms
作业每秒输出的记录条数(ETL)
当前作业所有 sink 的加和速率
234 条/秒
数据源-存量同步（ETL）
当前作业存量数据的同步进度
30%
数据源-增量同步（ETL）
针对 mysql 同步延迟指的是当前 souce 处理 binlog 位点和 mysql 实例源最新的 binlog 的最后一次采样的缺口值，针对 postgresql 同步延迟指的是当前 souce 处理 lsn 日志号和 postgresql 实例源最新的 lsn 日志号的最后一次采样缺口值
205
Kafka - Records_Lag 最大值
Taskmanager 上报的 kafka-lag-max 最大值（kafka-lag-max：生产者当前偏移量和消费者当前偏移量之间的计算差值）
100
Kafka - Records_Lag 最小值
Taskmanager 上报的 kafka-lag-max 最小值（kafka-lag-max：生产者当前偏移量和消费者当前偏移量之间的计算差值）
50
Kafka - Records_Lag 均值
Taskmanager 上报的 kafka-lag-max 均值（kafka-lag-max：生产者当前偏移量和消费者当前偏移量之间的计算差值）
80
Kafka - Records_Lag 求和值
各个 Taskmanager 上报的 kafka-lag-max 的求和值（kafka-lag-max：生产者当前偏移量和消费者当前偏移量之间的计算差值）
500
数据在外部系统的滞留时间 （毫秒）
指标计算公式：数据被 Source 读取的时间（FetchTime）- 数据事件时间（EventTime）。该指标反映了数据在外部系统的滞留情况
10
数据在外部系统和 Source 中的滞留时间 （毫秒）
指标计算公式：数据离开 Source 的时间（EmitTime）- 数据事件时间（EventTime）。该指标反映了数据在外部系统和 Source 中的滞留情况
20
反压指标（%）
作业所有 SubTask 的反压百分比的最大值
30%
数据倾斜程度
指标为每个作业的 SubTask 的数据输入量的离散系数（=标准差/均值）的最大值，小于 10% 属于弱倾斜
10%
﻿

接入 Prometheus 自定义监控

最近更新时间：2023-11-07 18:00:39

Prometheus 介绍
﻿Prometheus 是一个非常灵活的时序数据库，通常用于监控数据的存储、计算和告警。
用户可以将 Flink 内置的 各项指标，连同自己定义的业务指标，统一通过 Prometheus Pushgateway 的方式，推送到自建或者腾讯云 Prometheus 服务端，随后即可对 Grafana 面板进行分组、聚合和数据展示。 
流计算 Oceanus 建议用户使用腾讯云可观测平台提供的 Prometheus 服务，以免去部署、运维开销；同时它还支持腾讯云的 通知模板，可以通过短信、电话、邮件、企业微信机器人等方式，将告警信息轻松触达不同的接收方。
Oceanus Grafana 面板导入方法
1. 下载 Oceanus Grafana Dashboard 模板并解压到本地。点此下载 Dashboard。
2. 在 Prometheus 的 Grafana 面板上，鼠标移动到左边栏，选择
﻿
> Manage。
﻿
﻿
3. 创建一个名为 Oceanus 新文件夹。
﻿
﻿
﻿
﻿
4. 再次进入 Dashboard 管理页面，单击右上角的 Import，逐个将解压后的 json 文件内容粘贴进来。
注意
请按照下文指引，逐一导入每个 JSON 文件。
不要修改面板的 UID（即不要单击 Change uid），以免面板之间的跳转链接失效。
﻿
﻿
﻿
﻿
﻿
5. 导入完毕后，检查 Oceanus 目录是否包含了面板。
作业启用 Prometheus 监控指标上报
注意
每个作业需要单独配置 Prometheus 上报。
修改每个作业的配置后，必须单击发布运行，待作业重启后才会正式上报监控数据。
1. 在 流计算 Oceanus 控制台，单击需要添加监控的作业，进入开发调试面板。
2. 单击作业参数，在高级参数中新增以下内容：
注意
 ${ } 的变量需替换为实际值。
metrics.reporters: promgateway
metrics.reporter.promgateway.host: ${Prometheus PushGateway 的 IP 地址}
metrics.reporter.promgateway.port: ${Prometheus PushGateway 的端口}
 如果使用腾讯云可观测平台的 Prometheus 服务，还需要额外配置鉴权信息（Password 即控制台看到的 Token）：
metrics.reporter.promgateway.needBasicAuth: true
metrics.reporter.promgateway.password: ${Prometheus 访问密码}
3. 以新的配置发布并启动作业，稍等1分钟（上报周期），随后即可查看面板上的数据。
4. 还可以编辑 Prometheus 面板，以满足个性化的监控需求。
告警配置
如果希望对某项指标进行告警，我们以 Checkpoint 失败数为例，在腾讯云 Prometheus 监控 上展示配置告警策略的方法。
1. 在 Dashboard 选择需要配置告警的指标项，例如 Checkpoint 失败数。
2. 进入编辑界面，查看告警指标的查询条件。
﻿
﻿
3. 进入 Prometheus 的告警配置界面，新增一条规则。
注意
在规则 PromQL 中，{ } 中不要包含上图中的 Grafana 变量，例如 instance_id="$InstanceId" 等。如果需要按条件筛选，请在 { } 中填入具体值，例如 instance_id="cql-abcd0012"。
数据源中的标签（例如 job_id），可以在告警对象和告警消息中引用，例如 {{ $labels.job_id }}，而查询语句的值可以用 {{ $value }} 表示。
4. 当告警触发、恢复时，配置的告警渠道就会收到通知。此外，通知模板 中还支持短信、电话、邮件等其他告警渠道。
注意
这里演示企业微信回调推送到群机器人（Bot）。
﻿
﻿
﻿

查看作业 Flink UI

最近更新时间：2023-11-07 17:49:03

处于运行中状态的作业可以查看该作业的 Flink UI（即 Flink 原生的 Dashboard），作业的 Flink UI 有两个入口：
1. 登录 流计算 Oceanus 控制台，选择作业管理 > 操作 > Flink UI > 前往 Flink UI。 
2. 登录 流计算 Oceanus 控制台，选择需要查看 Flink UI 的作业，单击作业名称/ID 进入作业详情页，在详情页的右上角单击 Flink UI。
单击 前往 Flink UI 后会打开新的标签页，输入用户名密码后方可成功进入页面。用户名默认为 admin，密码为创建集群时设置，若忘记密码可点击重置密码按钮或者在集群管理中重置密码。

作业日志

配置采集作业运行日志

最近更新时间：2023-11-07 17:27:57

用户可以为 Oceanus 集群设置1个或多个 CLS 日志主题，供不同作业的运行日志灵活选用，并在作业的日志页面方便地查看和检索。与此同时，Oceanus 集群也可以使用 COS 存放作业运行日志，这种方式相较于 CLS 来说成本更低，但无法实时地查看和检索作业日志。
集群绑定CLS
在集群详情页面，可以设置集群绑定的 CLS 日志集和日志主题，并且可以绑定多个，最多绑定3个 CLS 日志主题。
创建日志集和日志主题
用户可以在 Oceanus 控制台新建专属的日志集和日志主题，创建的日志主题都会带有"Oceanus_"前缀；在选择日志集时，可以新建，也可以选择现有的日志集。
流计算 Oceanus 创建的日志主题有特殊的系统设置，不建议用于其他产品。
选择现有日志主题
用户在绑定 Oceanus 集群的日志主题时，可以选择现有的日志主题，但只能选择在 Oceanus 控制台新建的日志主题。
集群设置默认运行日志采集方式
为节省作业参数配置时间，可以为集群设置默认的作业采集方式，设置默认采集方式后，下一次新建作业会使用默认配置中的日志集和日志主题。
作业设置运行日志采集方式
当用户选择运行日志采集方式为 CLS 时，由于在 Oceanus 集群可以设置绑定多个 CLS 日志主题，在新建作业时，作业参数配置需要选择作业运行日志具体上报到哪一个日志主题，当然也可以设置默认采集方式。
当用户选择运行日志采集方式为 COS 时，作业日志会默认放到用户创建集群时绑定的 COS 中，日志在 COS 中存放的路径为 job-running-log/ 。
作业设置运行日志级别
在作业参数页面，支持配置当前作业日志级别，目前可选的级别有：DEBUG , INFO , WARN , ERROR ; 作业配置日志级别之后，作业日志会按照配置的级别输出，如果不支持选择日志级别，可以 提交工单 申请升级。
批量修改作业日志级别
如果您需要批量修改多个作业的日志采集级别的话，可以在作业管理页面的批量选项下拉列表中点击批量修改日志级别按钮。然后选择日志级别（目前可选的级别有：DEBUG , INFO , WARN , ERROR）后点击确定按钮即可完成批量配置，作业日志会按照配置的级别输出，如果不支持选择日志级别，可以 提交工单 申请升级。
﻿
﻿
﻿
﻿
﻿

事件与诊断

日志诊断指南

最近更新时间：2023-11-07 17:54:03

日志说明
流计算 Oceanus 的日志分为启动日志和运行日志两部分。 
启动日志：在流计算集群中提交用户的 SQL 或 JAR 等作业时，首先会进入生成 Flink 运行图的启动过程。这个过程中产生的日志，称为启动日志。当作业启动失败时，流计算控制台的作业名后会出现一个黄色小三角⚠️，可鼠标悬停至其上方查看说明；也可以通过日志面板，阅读报错的上下文日志。
运行日志：当作业运行图生成完毕，则会启动 JobManager 和 TaskManager，并将运行图提交到集群进行执行，作业进入“运行中”状态。之后 JobManager 和各个 TaskManager 打印的日志称为运行日志。
常见异常关键字
作业失败原因
通过 from RUNNING to FAILED 关键字可以搜索到作业崩溃的直接原因，异常栈中的 Caused by 后即为故障信息。
是否发生过 OOM
如果出现了 java.lang.OutOfMemoryError 关键字，说明很可能出现了 OOM 堆内存溢出。需尝试增加作业的算子并行度（CU）数和优化内存占用，避免内存泄露。
JVM 退出等致命错误
进程退出码通常出现在以下关键字后，可以辅助定位 JVM 或 Akka 等发生了致命错误被强制关闭等的错误。
exit code OR shutting down JVM OR fatal OR kill OR killing
例如，表示 ZooKeeper 连接丢失的致命错误，命中了 fatal 关键字
快照失败（超时）
如果出现了下列该关键字，说明快照失败，请根据原因进行进一步的分析。例如，declined 表示由于资源未到位（作业并未处于运行中）、个别算子已进入 FINISHED 状态、快照超时、快照文件不完整等原因，造成了快照的失败。
Checkpoint was declined
Checkpoint was canceled
Checkpoint expired
job has failed
Task has failed
Failure to finalize
超时/失败
下列关键字代表外部系统访问（例如 MySQL、Kafka 等）可能因为网络原因出现了超时。结果中可能会有很多配置相关的内容，请自行甄别是否是报错。例如，Kafka 的 Timeout expired while fetching topic metadata 表示初始化超时；MySQL 的 Communications link failure 表示连接中断（可能是很长时间没有数据流入，造成客户端超时）。
java.util.concurrent.TimeoutException
timeout
failure
timed out
failed
异常
异常 Exception 关键字代表可能发生了异常。例如，下图某个 Flink 作业的启动日志，它因为异常而没有提交成功。搜索 Exception 关键字，可以从各级异常栈的 Caused by 中看到具体的异常：
注意
由于日志关键字分词的原因，并非所有含有 Exception 的日志都能搜到。
WARN 和 ERROR 日志
一般情况下也可以搜索所有含 WARN 和 ERROR 关键字的日志，可能有较多结果，请注意筛选过滤有价值的信息。例如， WARN 和 ERROR 报错是正常的，并不代表有错误出现。
可忽略的报错信息
流计算 Oceanus 日志中有一些常见的报错，不会影响作业运行，在查找问题时可以直接跳过：
WARN  org.apache.flink.core.plugin.PluginConfig  - The plugins directory [plugins] does not exist.
﻿
WARN  org.apache.flink.shaded.zookeeper3.org.apache.zookeeper.ClientCnxn - SASL configuration failed: javax.security.auth.login.LoginException: No JAAS configuration section named 'Client' was found in specified JAAS configuration file: '/tmp/jaas-00000000.conf'. Will continue connection to Zookeeper server without SASL authentication, if Zookeeper server allows it.
﻿
ERROR org.apache.flink.shaded.curator4.org.apache.curator.ConnectionState - Authentication failed
﻿
WARN  org.apache.hadoop.util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
﻿
WARN  org.apache.flink.kubernetes.utils.KubernetesInitializerUtils  - Ship directory /data/workspace/.../shipFiles is not exists. Ignoring it.
﻿
WARN  org.apache.flink.configuration.GlobalConfiguration - Error while trying to split key and value in configuration file /opt/flink-1.11.0/conf/flink-conf.yaml
﻿
WARN  org.apache.flink.shaded.curator4.org.apache.curator.utils.ZKPaths - The version of ZooKeeper being used doesn't support Container nodes. CreateMode.PERSISTENT will be used instead.
﻿
WARNING: Unable to load JDK7 types (annotations, java.nio.file.Path): no Java7 support added
﻿

查看关键事件

最近更新时间：2023-11-07 16:39:56

功能介绍
作业的运行期会有各类的事件发生，例如启动事件、作业运行失败事件、快照失败事件，以及其他各类异常事件等。我们在控制台提供了一个综合的事件面板，用户可以查看和订阅这些关键事件。
在事件面板，用户可以选择希望查看的事件类型，并按运行实例 ID 和时间范围来进一步筛选查看的事件列表。如果希望清除查询条件，可以单击重置筛选条件来恢复默认设置，并再次拉取最新的事件。
注意
 为了避免返回事件过多，我们限定用于筛选的连续时间段最长为7天，且最多能查看近90天的事件。 
事件分类
作业启动、停止事件
当用户在作业操作菜单选择运行，以及单击开发调试页面的发布草稿，或者作业崩溃退出被检测到时，系统会尝试启动该作业，并自动为本次运行创建一个新的实例 ID；随后在事件面板中，可以看到一个新的启动事件。当用户停止、重启作业，或者作业发生了崩溃并退出，则会在本次实例 ID 下，产生一条停止事件。作业启动时间和停止时间指的是内部流程执行完成的时间点，而非用户界面上点击操作的时间点。
例如，表示用户或系统在 2021-11-10 16:49:30 启动了实例，又在 2021-10-10 16:55:52 终止了本次运行实例。
作业运行失败、恢复事件
当作业运行时发生了重启（由运行中 RUNNING 状态变成 重启中 RESTARTING 或 失败 FAILED 等异常状态），则会生成一条“发生作业失败”事件。如果后续作业又进入了 RUNNING 状态，则会生成一条“作业失败已恢复”事件。
可选择操作 > 解决方案，查看事件的各类成因和解决方案。此外还可以对作业运行失败事件 配置告警。
快照失败、恢复事件
如果作业启用了周期性快照，且在某次快照过程中发生了失败，则会生成一次“发生快照失败”事件。如果后续快照成功完成，则会生成一条“快照失败已恢复”事件。
可选择操作 > 解决方案，查看事件的各类成因和解决方案。此外还可以对作业快照失败事件 配置告警。
各类作业异常事件（BETA）
流计算 Oceanus 后台会持续监测和分析作业的运行状态，当作业遇到严重异常时（例如 TaskManager Full GC 过久、CPU 占用率长期过高、Pod 异常退出等），会推送相应事件以供用户查看和订阅，以此可判断作业的运行健康度。
注意
为了避免干扰用户，目前作业异常事件（Pod 异常退出事件除外）每小时最多推送1条。
该功能当前处于 Beta 预览阶段，仅支持严重问题的检测，且阈值暂不支持调整，后续会逐步升级完善，敬请期待。
﻿

各类事件说明

快照失败事件

最近更新时间：2023-11-07 16:43:10

事件介绍
“流计算快照失败” 事件表示当作业启用了周期快照（Checkpoint）后，某次快照因为超时等各类原因未能完成。
对于长时间运行的作业，偶尔一次的快照失败事件可能并不意味着作业出现了严重异常，只有当快照频繁失败时才需要针对具体情况进行应对。例如在 Flink UI 的 Checkpoints 面板中，某作业的快照 ID 6717发生失败时，显示如下图：
﻿
﻿
判定标准
事件的触发条件
作业的某次快照未能完成，快照的最终状态为 FAILED。
事件的恢复条件
作业后续有一次快照成功完成，快照的最终状态为 COMPLETED。
告警配置
用户可以对该事件 配置告警策略，并实时接收触发和恢复的告警通知。 
处理建议
在事件面板，可以查看快照失败事件发生的原因。这里根据 Flink 执行链路的不同，可能显示出快照失败的直接原因，也有可能是一些较为泛化的报错，需要进一步分析。
我们还可以根据快照失败发生的时间点，通过 日志面板 或 Flink UI 查看作业的 JobManager 和 TaskManager 在该时间点附近的报错日志。
如果 TaskManager 数量过多或日志量较大，未能在快照失败的时间点找到报错，还可以通过我们提供的 日志快捷诊断 功能，全局检索发生该事件的作业实例 ID 的异常日志。
如果上述诊断仍然未能发现问题所在，则可以通过 查看作业监控信息 来判断是否出现了资源超用等问题。特别地，可以重点关注 TaskManager 的 CPU 用量、堆内存用量、Full GC 次数和时间等指标，检查是否存在明显异常。

作业失败事件

最近更新时间：2023-11-07 16:46:16

事件介绍
流计算作业失败事件表示 Flink 作业由运行状态进入了失败或重启等异常状态，该现象可能引起数据处理中断、下游输出延迟等问题。
判定标准
事件的触发条件
1. 当 Flink 作业在运行期间，由于突发情况，从 RUNNING 状态变为 FAILED、RESTARTING 等异常状态时（后续 Flink JobManager 负责自动恢复作业，耗时约 10s，恢复后运行实例 ID 不变）。
2. 当 Flink 作业由于重启次数过多或过于频繁，超出 重启策略 的限制（该阈值通常由 restart-strategy.fixed-delay.attempts 参数控制，默认为5，实际生产环境下建议调大），导致 JobManager 和 TaskManager 整体退出时（后续会被系统从最近一次成功的快照点尝试恢复，耗时约2分钟，恢复后运行实例 ID 会增加1）。
事件的恢复条件
当 Flink 或 Oceanus 将作业重新恢复到 RUNNING 状态时，会发送 “作业失败已恢复” 事件，代表本次告警结束。
告警配置
用户可以对该事件 配置告警策略，并实时接收触发和恢复的告警通知。
处理建议
首先可以通过我们提供的 日志快捷诊断 功能，检索发生该事件的作业实例 ID 的异常日志。通常而言，from RUNNING to FAILED 关键字前后的报错信息是导致作业失败的直接原因。我们建议结合 JobManager 和 TaskManager 的日志一起分析。
如果上述诊断仍然未能发现问题所在，则可以通过 查看作业监控信息 来判断是否出现了资源超用等问题。重点可以关注 TaskManager 的 CPU 用量、堆内存用量、Full GC 次数和时间等指标，检查是否存在明显异常。

TaskManager Pod 异常退出事件

最近更新时间：2023-11-07 17:35:05

事件介绍
Flink 作业的 TaskManager 运行在 Kubernetes Pod 中，当 Pod 终止时，我们可以监测到该事件，并根据返回码、状态信息等维度，判断 Pod 是否发生了异常。
注意
 同一个 Pod 可能因为异常而被 Kubernetes 多次重建，因此如果您收到多条同样的事件，属于正常现象。
判定标准
系统实时监测 TaskManager Pod 的退出事件，判断退出时的状态码是否为 SIGTERM 造成的（即正常的退出码为 143）。如果退出码异常，说明该停止请求并非由 JobManager 发出，而是因为 TaskManager 自身发生了错误，此时会判定为 Pod 异常退出事件。
告警配置
用户可以对该事件 配置作业监控告警（异常事件），并实时接收触发和恢复的告警通知。
处理建议
状态码
可能原因
解决方案
137
作业内存占用过大，超出 Pod 配额，导致被 OOMKilled
根据 作业资源配置 增加算子并行度、提升 TaskManager 的 CU 规格
-1
兜底策略，表示 Pod 退出但是并未得到退出码，可能是系统错误等
请提 工单 联系技术支持排查
0
Pod 启动过程中，由于无法在用户绑定的子网中分配 IP（例如 IP 耗尽），导致启动失败退出
检查集群绑定的 VPC 的子网是否有剩余 IP。如果 IP 余量充足，请提 工单 联系技术支持排查
1
Flink 初始化期间发生了异常，导致启动失败
通常是基础类冲突或者关键配置文件被覆盖导致的，可在日志中搜索 Could not start cluster entrypoint 关键字附近的异常信息。
如果未能确定原因，请提 工单 联系技术支持排查
2
Flink JobManager 启动期间发生了致命错误
日志中搜索 Fatal error occurred in the cluster entrypoint 关键字附近的异常信息。
如果未能确定原因，请提 工单 联系技术支持排查
239
Flink 的执行线程发生了未捕获的致命错误
日志中搜索 produced an uncaught exception. Stopping the process 等关键字附近的异常信息。
如果未能确定原因，请提 工单 联系技术支持排查
﻿

JobManager Pod 异常退出事件

最近更新时间：2023-11-07 16:35:27

事件介绍
Flink 作业的 JobManager 负责整个作业的管理和调度工作，一旦其发生故障，可能造成作业崩溃、状态丢失等严重后果，因此我们会持续检测并推送 JobManager 异常退出事件。此外，为了保证 JobManager 的可用性，我们为每个作业启用了高可用（High Availability）配置，以便在 JobManager 意外退出时可以自动重新选举和恢复作业运行。
当发生 JobManager Pod 异常退出事件时，作业通常可以自行恢复，但恢复的完整程度取决于 Flink 作业是否开启快照功能，以及每个算子的具体实现逻辑。因此，我们建议用户在作业恢复正常后，检查输出是否正常（例如错误数据、重复数据等）。
注意
同一个 Pod 可能因为异常而被 Kubernetes 多次重建，因此如果您收到多条同样的事件，属于正常现象。
判定标准
系统实时监测 TaskManager Pod 的退出事件，判断退出时的状态码是否为 SIGTERM 造成的（即正常的退出码为143）。如果退出码异常，说明该停止请求并非由 JobManager 发出，而是因为 TaskManager 自身发生了错误，此时会判定为 Pod 异常退出事件。
告警配置
用户可以对该事件 配置作业监控告警（异常事件），并实时接收触发和恢复的告警通知。
处理建议
状态码
可能原因
解决方案
137
作业内存占用过大，超出 Pod 配额，导致被 OOMKilled
可能是 Source Connector 实现不当，给 JobManager 造成较大内存压力。
如果未能确定原因，请 提交工单 联系技术支持排查。
-1
兜底策略，表示 Pod 退出但是并未得到退出码，可能是系统错误等
请 提交工单 联系技术支持排查。
0
Pod 启动过程中，由于无法在用户绑定的子网中分配 IP（例如 IP 耗尽），导致启动失败退出
检查集群绑定的 VPC 的子网是否有剩余 IP。如果 IP 余量充足，请 提交工单 联系技术支持排查。
1
Flink 初始化期间发生了异常，导致启动失败
通常是基础类冲突或者关键配置文件被覆盖导致的，可在日志中搜索 Could not start cluster entrypoint 关键字附近的异常信息。
如果未能确定原因，请 提交工单 联系技术支持排查。
2
Flink JobManager 启动期间发生了致命错误
日志中搜索 Fatal error occurred in the cluster entrypoint 关键字附近的异常信息。
如果未能确定原因，请 提交工单 联系技术支持排查。
239
Flink 的执行线程发生了未捕获的致命错误
日志中搜索 produced an uncaught exception. Stopping the process 等关键字附近的异常信息。
如果未能确定原因，请 提交工单 联系技术支持排查。
﻿

TaskManager Full GC 过久事件

最近更新时间：2023-11-07 16:33:42

事件介绍
Flink 作业的 TaskManager 是一个 JVM 进程，它有自己的堆内存空间。Flink 算子的运行时状态存储以及其他的各类操作都可能造成堆内存空间占用过高。
当 JVM 的堆内存空间即将耗尽时，会通过 Full GC（内存回收机制）来释放空间。如果每次的回收量很小，难以及时释放堆内存空间时，JVM 会频繁而持续地触发 Full GC，该操作会占用大量的 CPU 时间，造成作业的执行线程无法正常工作，此时会触发本事件。
注意
该功能目前为 Beta 版，暂不支持规则的自定义，后续该能力会陆续上线。
判定标准
系统每5分钟会检测一次 Flink 作业的所有 TaskManager 的 Full GC 耗时。
当发现某个 TaskManager 的 Full GC 耗时增量占整个检测周期的30%以上（即5分钟内 Full GC 耗时超过1.5分钟）时，表明作业出现了严重的 Full GC 问题，会触发该事件。
注意
 为了避免频繁告警，每个作业的每个运行实例 ID 每小时最多触发一次该事件的推送。
告警配置
用户可以对该事件 配置作业监控告警（异常事件），并实时接收触发和恢复的告警通知。
处理建议
收到该事件推送后，我们建议增加作业的 资源配置，例如调大 TaskManager 的规格（提升 TaskManager 堆内存的最大可用空间，可以容纳更多的状态数据），提升作业的算子并行度（降低单个 TaskManager 的数据处理量，减少内存占用）等，令数据能够更有效地处理。
此外，调整 Flink 高级参数，例如减少 taskmanager.memory.managed.size 的值，也可以起到增加堆内存空间的效果。但请务必在熟悉 Flink 内存分配机制的专家指导下进行调优，否则极有可能造成其他问题。
如果您在作业的崩溃日志里发现有 OutOfMemoryError: Java heap space 等关键字，还可以启用 Pod 崩溃事件采集，并设置文中描述的 -XX:+HeapDumpOnOutOfMemoryError 参数，以便在作业发生 OOM（内存不足）崩溃时，及时捕捉到堆内存的现场 Dump 文件以供后续分析。
如果作业日志中没有找到 OutOfMemoryError: Java heap space 等关键字，且目前作业暂时正常运行，我们建议对该作业 配置告警，将流计算作业失败事件加入告警规则，以第一时间获取作业崩溃的事件推送。
如果以上方法均未能解决问题，可以通过 工单 等方式联系我们的技术人员以协助定位。

TaskManager CPU 负载过高事件

最近更新时间：2023-11-08 10:21:08

事件介绍
Flink 作业的 TaskManager 负责执行用户定义的各类算子逻辑，CPU 负载过高可能会导致吞吐量下降，以及延迟的上升等各类问题。当作业的大多数 TaskManager 长期接近满载时，会触发本事件。
注意
 该功能目前为 Beta 版，暂不支持规则的自定义，后续该能力会陆续上线。
判定标准
系统每5分钟会检测一次 Flink 作业中所有 TaskManager 的 CPU 使用率指标。
当某个 TaskManager 的 CPU 使用率连续5个数据点的值都超过90%，则说明这个 TaskManager 处于 CPU 超高负载状态。
如果该作业超过80%的 TaskManager 都处于超高负载状态，则会触发该事件的推送。
注意
为了避免频繁告警，每个作业的每个运行实例 ID 每小时最多触发一次该事件的推送。
告警配置
用户可以对该事件 配置作业监控告警（异常事件），并实时接收触发和恢复的告警通知。
处理建议
如果用户使用的是 Flink 1.13 版本，可以使用 Flink UI 内置的 火焰图功能 分析 CPU 调用热点，即占用 CPU 时间片较多的方法（首先需要在作业的 高级参数 选项中，加入 rest.flamegraph.enabled: true 参数，并重新发布作业版本，才可使用火焰图绘制功能），如下图：
﻿

如果未开启火焰图功能或者使用1.11等旧版本的 Flink，则可以多次查看 Flink UI 中 TaskManager 各线程的 Thread Dump 信息，寻找繁忙算子的调用频率较高的方法，如下图：
﻿

如果以上方法均未能解决问题，可以通过 工单 等方式联系我们的技术人员以协助定位。

TaskManager 背压较高/严重事件

最近更新时间：2023-11-07 16:24:13

事件介绍
Flink 的 背压（也称为反压）描述了作业的一种异常现象：在作业的运行图中，某个算子因为下游算子处理能力较慢、网络传输链路拥塞等原因，无法将数据全速输出到下游算子，引发了数据堆积。随后这个堆积现象会逐步向上游的各个算子扩散，最终传递到数据源，造成数据消费量的减少。如果背压情况长期得不到改善，则作业的总体吞吐量会大幅下降，甚至降低到 0。
如果算子只有轻度的背压现象（例如 Flink Web UI 中算子的背压值小于 50%），则可以继续观察背压是否只是偶现的。如果背压值已经超过了50%（如下图），则很可能对作业的性能造成较大影响，需要尽快着手处理。
注意
该功能目前为 Beta 版，暂不支持规则的自定义，后续该能力会陆续上线。
判定标准
系统每5分钟会检测一次 Flink 作业的算子背压情况。如果发现某个算子的背压值（如果算子有多个并行度，则取最大值）高于50%，则继续向下查找，直到遇到第一个背压值（图中的 Backpressured）低于阈值，但是繁忙度（图中的 Busy）高于50% 的算子，该算子通常是处理速度较慢、引起背压的根源。此时如果 查看 Flink Web UI，可以看到一系列的灰色算子后紧跟着一个红色算子。
如果链路中某个算子的背压超过50% 但小于80%，会触发 TaskManager 背压较高事件。如果算子的背压超过80%，则会触发 TaskManager 背压严重事件。
注意
为了避免频繁告警，每个作业的每个运行实例 ID 每小时最多触发一次该事件的推送。
背压事件检测功能仅支持 Flink 1.13 及之后的版本。
告警配置
用户可以对该事件 配置作业监控告警（异常事件），并实时接收触发和恢复的告警通知。
注意
 TaskManager 背压较高（OceanusBackpressureHigh）、TaskManager 背压过高（OceanusBackpressureTooHigh） 为两种不同的告警事件。如果您只关心影响作业运行的严重背压事件，可以只配置后者的告警通知。
处理建议
收到该事件推送后，我们建议立刻  查看 Flink Web UI，分析当前的运行图。如果可以找到引发背压的根源算子，则建议使用 Flink UI 内置的 火焰图功能 分析 CPU 调用热点，即占用 CPU 时间片较多的方法（首先需要在作业的 高级参数 选项中，加入 rest.flamegraph.enabled: true 参数，并重新发布作业版本，才可使用火焰图绘制功能）。
例如下图的繁忙算子 CPU 火焰图中，MD5 计算的相关方法占用了大量的时间片，已经成为了作业的性能瓶颈。此时我们可以修改 Flink 作业中该算子的计算逻辑，避免如此高频地调用该方法，或者使用更高效的算法等优化措施。
﻿
﻿
此外，我们建议增加作业的 资源配置，例如调大 TaskManager 的规格（提升 TaskManager 的 CPU 配额，可以有更多的 CPU 资源来处理数据），提升作业的算子并行度（降低单个 TaskManager 的数据处理量，减少 CPU 计算压力）等，令数据能够更有效地处理。
如果您找不到引起背压的根源，且以上方法均未能解决问题，可以通过 工单 等方式联系我们的技术人员以协助定位。

JobManager CPU 负载过高事件

最近更新时间：2023-11-07 15:41:45

事件介绍
Flink 作业的 JobManager 负责整个作业的管理和调度工作，其 CPU 负载过高可能会导致作业出现各类异常。当作业的 JobManager 长期接近满载时，会触发本事件。
说明
该功能目前为 Beta 版，暂不支持规则的自定义，后续该能力会陆续上线。
判定标准
系统每 5 分钟会检测一次 Flink 作业中 JobManager 的 CPU 使用率指标。
当 JobManager 的 CPU 使用率连续 5 个数据点的值都超过 80%，则说明这个 JobManager 处于 CPU 高负载状态。
注意
为了避免频繁告警，每个作业的每个运行实例 ID 每小时最多触发一次该事件的推送。
告警配置
用户可以对该事件 配置作业监控告警（异常事件），并实时接收触发和恢复的告警通知。
处理建议
造成 JobManager CPU 过高的原因较为复杂，我们建议增加作业的 资源配置，例如调大 JobManager 的规格。
此外，还可以通过 工单 等方式联系我们的技术人员以协助定位。

JobManager Full GC 过久事件

最近更新时间：2023-11-07 15:44:22

事件介绍
Flink 作业的 JobManager 负责整个作业的管理和调度工作，它是一个 JVM 进程，有着自己的堆内存空间。对于使用 FLIP-27 接口的数据源（Source）Connector，其 Enumerator 会把各类分片信息会记录到堆内存中。如果分片过多，就可能造成堆内存用量过高，影响整个作业的稳定性。
当 JVM 的堆内存空间即将耗尽时，会通过 Full GC（内存回收机制）来释放空间。如果每次的回收量很小，难以及时释放堆内存空间时，JVM 会频繁而持续地触发 Full GC，该操作会占用大量的 CPU 时间，造成作业的执行线程无法正常工作，此时会触发本事件。
说明
该功能目前为 Beta 版，暂不支持规则的自定义，后续该能力会陆续上线。
判定标准
系统每5分钟会检测一次 Flink 作业的 JobManager 的 Full GC 耗时。
当发现 JobManager 的 Full GC 耗时增量占整个检测周期的30%以上（即5分钟内 Full GC 耗时超过1.5分钟）时，表明作业出现了严重的 Full GC 问题，会触发该事件。
注意
为了避免频繁告警，每个作业的每个运行实例 ID 每小时最多触发一次该事件的推送。
告警配置
用户可以对该事件 配置作业监控告警（异常事件），并实时接收触发和恢复的告警通知。
处理建议
收到该事件推送后，我们建议增加作业的 资源配置，例如调大 JobManager 的规格（提升 JobManager 堆内存的最大可用空间，可以容纳更多的状态数据）。
此外，如果您使用的是 MySQL CDC 数据源，则建议您在 WITH 参数中，增加单个分片的大小，即调大 scan.incremental.snapshot.chunk.size 参数，以避免分片数过多导致 JobManager 堆内存用尽。
如果作业日志中没有找到 OutOfMemoryError: Java heap space 等关键字，且目前作业暂时正常运行，我们建议对该作业 配置告警，将流计算作业失败事件加入告警规则，以第一时间获取作业崩溃的事件推送。
如果以上方法均未能解决问题，可以通过 工单 等方式联系我们的技术人员以协助定位。
﻿

元数据管理

库表管理

最近更新时间：2023-11-07 16:30:18

元数据是用户在流计算作业中引用的库表。用户可以在元数据中管理已有的库表，在 SQL 作业开发中快速引用元数据。
创建数据库
登录 流计算 Oceanus 控制台，在作业管理中，创建 SQL 作业，可参考 创建 SQL 作业 ，切换到开发调试，在左侧的库表引用界面操作元数据，初始状态下只有一个默认数据目录[_dc]和默认数据库[_db]。
在库表引用功能界面中，选择右上角的新建 > 数据库，在弹窗中选择 Catalog，输入库名，然后单击确定。
创建数据表
步骤一 ：在库表引用功能界面中，选择右上角的新建 > 数据库，在弹窗中选择 Catalog 和 Database，然后单击下一步，进入选择创建元表的方式，可使用模板、自定义、云资源。如果选择自定义或者云资源，则需输入相应的连接信息。
自定义方式如下：
步骤二：下一步进入 DDL 编辑界面，可在应用程序包的地方选择自定义 Connector，自定义 Connector 的上传详见 程序包管理。DDL 语句编辑完成后，单击语法检查，检查 DDL 是否存在语法错误。然后单击完成，保存创建的元数据表。
注意
 创建元数据表时，WITH 参数中可以设置表变量，命名规则 ${变量名}:默认值。例如：${job_name}:job_test。
注意
connector 和 version 属性不支持变量设置。
SQL 作业引用元数据表
在 SQL 作业中可以直接引用元数据表，将光标移动到想要引用的元表上面，右侧会显示操作菜单，单击引用，元数据表使用三段式引用，例如`dc`.`db`.`test_table`。如果元数据表的建表语句中使用了参数，单击表变量替换，将参数值换成真实值。
表血缘
元数据表可以通过表血缘查看表的上下游依赖关系。 在库表引用页面，光标移动到元数据表，单击操作，选择查看血缘。
编辑 DDL
元数据表支持编辑 DDL，选中表后更多菜单中的编辑 DDL 即可进行编辑。目前支持编辑 with 参数，且 Connector 类型不支持编辑。在右侧的 WITH 参数编辑器中修改完成后，单击更新 DDL，左侧的 DDL 即显示更新后的 DDL，单击保存按钮即可完成编辑。
﻿

变量管理

最近更新时间：2023-11-07 16:26:08

用户可以在 SQL 作业中的库表管理使用变量。SQL 作业的临时表和元数据表都可以通过表变量替换对使用了的变量进行替换。
变量语法：${变量名称}:默认值
注意
 变量名称分隔符用下划线 _ 。
新建变量
登录 流计算 Oceanus 控制台，在作业管理中，创建 SQL 作业，可参考 创建 SQL 作业 ，切换到开发调试，在左侧的变量管理界面操作变量。
在变量管理功能界面中，选择右上角的新建 > 新建变量，在弹窗中填写变量信息，然后单击确定。
数据表中引用全局变量
在库表引用功能界面中，选择右上角的新建 > 数据表，在弹窗中选择 Catalog 和 Database，然后单击下一步，进入选择创建元表的方式，可使用模板、自定义、云资源。如果选择自定义或者云资源，则需输入相应的连接信息。在 WITH 参数中设置表变量并点击完成，表变量命名规则参考 库表管理。
SQL 作业引用全局变量
在 SQL 作业中可以直接引用全局变量，单击表变量替换，右侧会显示操作菜单，单击引用全局变量，最后单击提交。

使用 Hive Catalog

最近更新时间：2023-11-07 16:28:52

介绍
您可以在 Oceanus SQL 作业中配置 Hive Catalog、查看 Hive 元数据、使用 Hive Catalog。将元数据信息保存到 Hive Metastore 以后，在作业中无需再显式声明 DDL 语句，直接三段式引用元数据即可。
版本说明
Flink 版本
说明
1.11
不支持
1.13
支持 hive 版本2.2.0、2.3.2、2.3.5、3.1.1
1.14
不支持
前提条件
已在 Hive Metastore 侧开启了 Hive Metastore 服务。
相关命令如下：
hive --service metastore：开启 Hive Metastore 服务。
ps -ef|grep metastore：查询 Hive Metastore 服务是否已开启。
操作说明
创建 Hive Catalog
切换到 _dc，单击新建 Hive Catalog。
上传4个配置文件 hive-site.xml ，hdfs-site.xml ，hivemetastore-site.xml ，hiveserver2-site.xml 配置文件下载，其中 hive-site.xml 中需要添加 urls 的地址。
创建数据库
在 SQL 作业中可以创建数据库。数据库的写法采用两段式：catalog_name.database_name。
CREATE DATABASE IF NOT EXISTS `hiveCatalogName`.`databaseName`;
创建数据表
在 SQL 作业中可以创建数据表。数据表的写法采用三段式：catalog_name.database_name.table_name。
CREATE TABLE IF NOT EXISTS `hiveCatalogName`.`databaseName`.`tableName` (
  user_id INT,
  item_id INT,
  category_id INT,
  -- ts AS localtimestamp,
  -- WATERMARK FOR ts AS ts,
  behavior VARCHAR
) WITH (
  'connector' = 'datagen',
  'rows-per-second' = '1',  -- 每秒产生的数据条数
  'fields.user_id.kind' = 'sequence',  -- 有界序列（结束后自动停止输出）
  'fields.user_id.start' = '1',  -- 序列的起始值
  'fields.user_id.end' = '10000',  -- 序列的终止值
  'fields.item_id.kind' = 'random',  -- 无界的随机数
  'fields.item_id.min' = '1',  -- 随机数的最小值
  'fields.item_id.max' = '1000',  -- 随机数的最大值
  'fields.category_id.kind' = 'random',  -- 无界的随机数
  'fields.category_id.min' = '1',  -- 随机数的最小值
  'fields.category_id.max' = '1000',  -- 随机数的最大值
  'fields.behavior.length' = '5' -- 随机字符串的长度
);
SQL 作业中引用 Hive Catalog 中的表
在 SQL 作业中，将光标移动到要插入的元表的位置，在左侧导航栏中找到要引用的表，点击菜单中的【引用】。
INSERT INTO
  `hiveCatalogName`.`databaseName`.`sink_tableName` 
SELECT
  *
FROM
  `hiveCatalogName`.`databaseName`.`source_tableName`;
说明
同一个作业中只能引用一个 Hive Catalog。
Hive Catalog 不支持 Drop 操作。
删除 Hive Metastore
在左侧导航栏，单击 Hive Catalog 对应的删除按钮。
赋权
作业执行过程中，需要有写入 hdfs 文件的权限，目前 Oceanus 使用 Hive Catalog 元数据需要对 flink 用户进行授权。相关操作如下：
在 Hive 所在的所有 master 节点执行。
useradd flink
groupadd supergroup
usermod -a -G supergroup flink
hdfs dfsadmin -refreshUserToGroupsMappings
建议在 Hive 中开启权限，在 hive-site.xml 文件中添加如下的配置项。
<property>
<name>hive.metastore.authorization.storage.checks</name>
<value>true</value>
<description>Should the metastore do authorization checks against
the underlying storage for operations like drop-partition (disallow
the drop-partition if the user in question doesn't have permissions
to delete the corresponding directory on the storage).</description><property>
﻿

快照管理

最近更新时间：2023-11-08 10:17:15

查看快照信息
登录 流计算 Oceanus 控制台，在作业管理中，切换到快照页面。快照页面展示当前任务的快照列表。
快照列表包含以下信息：
快照 ID/描述：快照 ID 用于唯一标识当前快照，描述是用户填写或是由平台自动填写的快照信息。
触发时间：快照触发时间。
完成时间：快照完成时间。
耗时：	快照进行的耗时。
状态：	快照状态，包括创建中、存在、已清理、超时、失败等状态。 
来源：	快照来源，运行时触发表示用户手动触发的快照，停止时触发表示作业停止时勾选了创建快照。
作业版本：当前快照对应的作业配置版本。
位置：当前快照保存的地址，目前为一个 COS 路径。
说明：
已清理状态表示该快照对应COS路径已被手动或自动清理，不能用作快照启动。
手动创建快照
对于运行中的作业，您可以手动创建作业快照，快照中包含作业当前所有的状态，便于作业的升级、调试等。在作业的快照页面，单击手动触发，输入描述后即可对作业触发快照。
此时，作业快照列表中会出现一条来源为运行时触发的记录，请耐心等待其状态由 进行中 变成 完成。完成状态的快照可以用于启动作业时恢复状态。
说明
 如果进入快照 Tab，显示当前集群不支持快照，请 提交工单 升级集群。
从快照恢复作业
作业运行时，支持从历史快照恢复状态。用户可以手动选择历史快照，单击确定后即可从指定快照的状态中恢复作业。
作业快照保存策略
Flink 默认会保存作业最新的 Checkpoint，如果要从 Checkpoint 恢复作业，请参见 设置作业快照保存策略。
目前作业默认保留最近的5个 Checkpoint ，保留的 Checkpoint 的数量可以在高级参数中使用 "state.checkpoints.num-retained" 关键字来设定保留多少份 checkpoint，使用示例参考下图。

﻿

作业调优

作业自动调优

最近更新时间：2023-11-07 15:50:49

背景信息
用户通常需要花费大量的时间对作业进行调优。例如新上线一个作业时，需要考虑如何配置该作业的并行度、TaskManager 个数、TaskManager CU 数等。此外，作业运行过程中，还需要考虑如何调整作业资源配置，提升作业的资源利用率；而作业出现反压或延时增大的情况时，需要考虑增大作业资源配置等。
Oceanus 提供的自动调优功能，可以帮助用户更合理地调整作业并行度和资源配置，全局优化您的作业，解决作业吞吐量不足、作业繁忙以及资源浪费等各种性能调优问题。
使用限制
自动调优无法解决流作业本身的性能瓶颈。
因为调优策略对作业的处理模式是基于一定的假设的。例如，流量平滑变化、不能有数据倾斜、每个算子的吞吐能力能够随并发度的升高而线性拓展。当业务逻辑严重偏离以上假设时，作业可能会存在异常。如果作业本身存在问题，您需要进行手动调优。常见的作业异常如下：
无法修改作业并发度。
作业不能达到正常状态、作业持续重启。
自定义函数 UDF 性能问题。
数据严重倾斜。
自动调优无法解决外部系统导致的问题。
外部系统故障或访问变慢时，会导致作业并行度增大，加重外部系统的压力，导致外部系统雪崩。如果出现外部系统问题，您需要自行解决。常见的外部系统问题如下：
源头消息队列分区数不足或吞吐量不足。
下游 Sink 性能问题。
下游数据库死锁。
注意事项
自动调优功能为目前处于公开测试阶段（Beta 版本），暂不建议对重要的生产任务开启自动扩缩容。
自动调优触发后需要重启作业，因此会导致作业短暂停止处理数据。大状态的作业由于启停过程耗时较长，可能导致长时间停流，不建议开启自动扩缩。
连续两次自动调优触发间隔默认为10分钟。
如果用户为 Jar 类型的作业开启了自动调优，请确认作业代码中未配置作业并行度，否则自动扩缩容将无法调整作业资源，即自动调优配置无法生效。
由于集群资源限制，当前作业自动调优过程为串行执行，因此不要为集群中所有作业开启自动调优，否则会相互影响。
默认调优规则
开启自动调优后，Oceanus 会自动调整作业并行度和 TaskManager CU 数这两个配置，对作业进行优化。
1. 自动调优会调整作业并行度来满足作业流量变化所需要的吞吐。自动调优会监控TaskManager CPU 使用率和各个算子处理数据能力来调整作业的并发度。详情如下：
作业所有 TaskManager 的 CPU 使用率连续 10 分钟超过 80%，将作业默认并行度调高为原来的一倍，但作业运行 CU 数不超过设置最大的资源（默认为 64 CU）。
作业任意一个 Vertex 节点连续 10 分钟处理数据时间占比超过 80%，将作业默认并行度调高为原来的一倍，但作业运行 CU 数不超过设置最大的资源（默认为 64 CU）。
作业所有 TaskManager 的 CPU 使用率连续 4 小时低于 20%，并且所有 Vertex 节点 4 小时内处理数据时间占比均低于 20% 时，将作业默认并行度调低为原来的一半，最小降低到 1。
2. 自动调优也会监控作业的 TaskManager 内存使用情况来调整作业的内存配置。详情如下：
作业所有 TaskManager 的堆内存使用率连续 1 小时超过 80%，将 TaskManager CU 数调高为原来的一倍。
作业所有 TaskManager 的堆内存使用率连续 4 小时低于 30% 时，将 TaskManager CU 数调低为原来的一半。
注意
 作业并行度最小降低到 1。TaskManager CU 数根据集群是否开启细粒度资源可以有不同的配置，开启细粒度资源则 CU 数可以为 0.25, 0.5, 1, 2 否则 CU 数只能为 1。

依赖管理

最近更新时间：2023-11-07 15:54:02

依赖是用户在流计算作业中需要使用的外部资源，可分为两种类型：
JAR 程序包可以是 JAR 作业的主程序，也可以是 SQL 作业或 JAR 作业的自定义函数或自定义 Connector。用户需先在依赖管理中上传 JAR 包，然后才可以在 JAR 作业、SQL 作业中引用。
配置文件可以是 JAR 作业中需要读取的资源文件，例如文本文件、配置文件等，用户在依赖管理中上传配置文件后，可以在 JAR 任务中通过一个固定的路径使用配置文件，例如实现读取配置等操作。
创建依赖
登录 流计算 Oceanus 控制台，选择依赖管理 > 新建依赖。在新建依赖页面，填写地域、依赖类型、所属目录、上传依赖、依赖描述，填写完成后，单击确定完成新建依赖。完成新建后依赖列表将出现刚新建的依赖。
地域：所选地域需与要使用此依赖的作业或独享集群所在地域一致。
依赖类型：需要选择 JAR 程序包类型，或是配置文件类型。
上传依赖：可以选择本地上传或使用 COS 资源两种上传方式。
若使用本地上传的方式，单击选择依赖将打开本地文件选择窗口，选择本地的依赖文件并上传，使用本地上传的 JAR 程序包的大小不能超过50M，配置文件不能超过2M。若超过，可提交 工单 申请上传。
若使用 COS 资源，单击点击选择将打开 COS 存储桶列表，从中选择需要的依赖。要使用 COS 资源需要先将依赖上传至 对象存储 COS。
上传依赖后，依赖的命名与上传文件名保持一致且不允许修改，建议使用更有区分度且可读的名称来命名被上传文件。
上传依赖新版本
一个依赖支持多个新版本，在要新增版本的依赖的操作栏中单击上传新版本即可打开如下对话框，上传依赖并填写版本说明后再单击确定即可生成依赖的新版本，版本编号由系统自动生成。
一个依赖最多可保留20个版本，若已达版本数量上限，将无法上传新版本，需要手动删除不需要的历史版本之后才能够上传新版本。
查看依赖信息
登录 流计算 Oceanus 控制台，单击依赖管理即可查看当前地域下的依赖列表。单击要查看的依赖名称，即可查看该程序包的版本信息和已经关联的作业，即已引用此依赖的作业版本。流计算作业引用的是一个依赖下的一个具体的版本，即由某个作业版本引用某个依赖版本。
删除依赖
在依赖列表中可删除整个依赖，此操作将删除该依赖下的所有版本。也可以在依赖版本中删除某个单独的特定的版本
当某个依赖版本被某个作业版本引用后，无论此作业版本的状态是草稿还是停止、暂停或运行中都无法删除该依赖版本。需将该作业版本删除或者在作业版本中取消该依赖版本的引用后，才可删除该依赖版本。当有依赖版本不能被删除时，也无法直接删除整个依赖。
查看文件
如果依赖属于配置文件类型，则在依赖版本列表的操作中会增加查看功能，查看功能能够查看当前配置文件的内容。
在某些存量依赖中可能会存在依赖名与 COS 物理文件名不一致的情况，这种情况下查看能够显示 COS 上的物理文件名，方便在程序中调用。

集群管理

查看集群信息

最近更新时间：2023-11-07 15:51:40

流计算作业运行于流计算 Oceanus 独享集群，可登录 流计算 Oceanus 控制台，在集群管理 > 新建集群中创建集群，具体可参考 创建独享集群 和 了解 Oceanus 独享集群。创建集群后可在集群管理中单击要查看的集群名称来查看集群信息和在集群上运行的作业。
集群信息相关字段含义如下：
字段
含义
集群名称
自定义集群名称
集群 ID
系统自动生成的集群唯一识别序列号
集群状态
集群目前的运行状态
集群描述
用户自定义的帮助识别此集群的描述
计算资源（CU）
集群空闲的 CU/集群总共拥有的 CU    
地域/可用区
此集群所在的地域/可用区 
VPC
独享集群关联的 VPC 和子网，流计算 Oceanus 通过弹性网卡将流计算独享集群与用户的 VPC 网络打通，从而可以访问该网络环境下的资源和服务
COS 存储
集群创建时绑定的 COS 存储桶
日志
集群创建时绑定的 CLS 日志集和日志主题
标签
集群被打上的标签
计费模式
目前支持按量付费和包年包月
Flink 版本
集群部署的 Flink 版本号
创建时间
集群创建的时间
DNS
集群的DNS配置
Flink UI 访问策略
可以设置 Flink UI 的访问策略，不设置可访问 IP 白名单时，默认所有公网 IP 均可访问
﻿

扩容集群

最近更新时间：2023-11-07 15:46:32

登录 流计算 Oceanus 控制台，在集群管理的集群列表中找到要扩容的集群，选择操作 > 更多，在下拉框中单击调整集群配置，即可对集群进行扩容设置。将 CU 数量调制要扩容至的数量（不是要增加的数量，而是扩容后集群新的可用的总 CU 数），调整完毕并确认费用后，勾选”我已阅读并同意包年包月集群调整配置费用说明“，然后单击确定。确认订单并支付成功后，集群即开始扩容进程。扩容期间，集群上的作业不受影响，也可以继续在集群上新建作业。集群扩容完毕后，即可使用扩容后的 CU 资源。扩容费用说明可参考 调整配置费用说明。 
注意：
出于底层机器性能考虑，单次调整配置增加最多增加300CU，单个集群默认最大CU限额为800CU，如果需要调整最大限额，请 联系我们 调整。
﻿

销毁集群

最近更新时间：2023-11-07 15:48:38

对于不使用的集群，可以对集群进行销毁，需注意的是作业是附属于集群的资源，销毁集群的同时将停止并删除集群上的所有作业，并且不可恢复，请谨慎操作。
登录 流计算 Oceanus 控制台，在集群管理的集群列表中找到要销毁的集群，选择操作 > 更多，在下拉框中单击销毁，在打开的弹窗中确认要销毁的集群信息，以及集群上的作业数，勾选“我已阅读并同意销毁集群和退费说明”后，单击确定即开始销毁集群。销毁集群可能产生退费，具体可参考 退费说明。
在销毁后7天内，集群将处于隔离中状态，在此期间集群停服但数据将被保留，可通过续费操作恢复集群，续费后新的计费周期起始时间点为上一次集群销毁的时间点。若未进行续费，在销毁7天后，集群将被正式释放，集群数据将被清除且不可恢复。 

缩容集群

最近更新时间：2023-11-07 15:47:38

登录 流计算 Oceanus 控制台，在集群管理的集群列表中找到要缩容的集群，选择操作 > 更多，在下拉框中单击调整集群配置，即可对集群进行缩容设置。将 CU 数量调整到要缩容的数量，调整完毕并确认费用后，勾选”我已阅读并同意包年包月集群调整配置费用说明“，即可单击确定。确认订单后，集群即开始缩容进程。缩容期间，集群上的运行作业可能会受影响而重启。缩容退费说明可参考 调整配置费用说明。
说明
总 CU 数不能小于当前使用数，且不能小于12。
CU 数量调整时，不是调整要减少的 CU 数量，而是缩容后集群新的可用的总 CU 数。
﻿

迁移集群

最近更新时间：2023-11-07 15:49:59

在集群版本较低时，可能会体验不到一些新特性（例如监控指标、快照管理等）。目前最优的方案是把作业迁移到新版本的集群。
本文主要介绍如何通过 流计算 Oceanus 控制台 迁移集群。如果您在迁移时有困难，可以 提交工单 联系我们协助迁移。
创建新集群
登录 流计算 Oceanus 控制台 ，在集群管理中单击新建集群，详情可参见 创建独享集群。
说明
在新建独享集群中地域与 VPC 应该与老集群一致。
如集群有自定义配置，如 DNS 等，需要同步到新集群。
新建的集群应当绑定到旧集群对应的工作空间上。
把旧集群的作业初始化到新集群
通过作业批量创建副本功能，将旧集群的作业复制到新的集群上，作业批量创建副本功能详情请参考文档作业操作。
进入集群关联的空间，单击作业列表左侧的批量操作，选择批量创建副本，将要迁移的集群的作业复制到新的集群上。
说明
如果目标集群不支持源作业的 Flink 版本，作业副本的 Flink 版本将和目标集群默认 Flink 版本保持一致。
如果源作业设置了细粒度资源，但是目标集群不支持细粒度资源的，作业资源配置的 JobManager 规格 和 TaskManager 规格设置为 1CU。
作业只能在工作空间内部复制，目标集群只能选择已绑定给当前空间的集群。
启停新旧集群的作业
停止旧集群作业，启动新集群作业。在启动新集群作业后，检查作业状态是否有异常。
在旧集群中停止作业
在新集群中开启作业
说明
 新作业将不保留原作业的状态，请自行考虑数据的补全逻辑。
销毁旧集群
完成所有的作业迁移后，销毁旧集群，详情可参见 销毁集群。

自定义DNS

最近更新时间：2023-11-07 15:44:58

什么是自定义 DNS
为了方便运维管理，您的作业可能会使用域名的方式访问外部资源（消息队列 CKafka、云数据库 MySQL等），您可以使用自定义 DNS 的方式进行域名解析。自定义 DNS 的原理请参考 Kubernetes 官网文档 自定义 DNS 服务。您一般会使用两种方式来完成域名解析。 
1. host 映射。如下示例，您可以使用 kafka.example.com 来访问 IP 为172.17.0.2的 CKafka 实例。
172.17.0.2 kafka.example.com 
172.17.0.3 mysql.example.com 
2. DNS 域名解析。如下示例，假设您的 DNS 服务器地址为 172.17.0.253 和 172.17.0.254，您的作业中对任何 *.example.com 形式的域名访问，都会通过您的 DNS 服务器解析。您可以在 DNS 服务器中配置 172.17.0.2 kafka.example.com 的映射关系，那么 kafka.example.com 就能解析到地址 172.17.0.2。
example.com { 
 forward . 172.17.0.253 172.17.0.254 
} 
如何自定义 DNS
您可以在集群详情页里设置自定义 DNS。请注意：若您同时配置了 host 映射和 DNS 域名解析，优先选择 DNS 域名解析。 
操作步骤
1. 在 集群管理 > 集群信息中可设置自定义 DNS。
2. 在弹窗中设置 host 或域名，单击确认保存设置，保存后可以再次进行修改。

网络连通性检查

最近更新时间：2023-11-07 15:45:22

为了方便运维管理，您的作业可能会使用域名或者 IP 端口的方式访问外部资源（消息队列 CKafka、云数据库  MySQL 等），您可以通过该功能来测试 Oceanus 的集群的网络到外部资源的是否是通的。
操作步骤
1. 在计算资源 > 集群信息 > 更多选项中选择连通性测试。
2. IP 测试 
3. IP+端口测试 

权限管理

权限概述

最近更新时间：2023-11-08 10:18:19

本文主要介绍 Oceanus 产品子用户的授权类别，子用户的权限需要主账号进行授权，具体授权步骤请参见 基础权限配置指引 和 空间角色权限，按步骤授权后子用户即可正常使用。
流计算 Oceanus 中的权限管理主要有三个方面：
1. CAM 访问管理
2. 服务委托授权
3. 空间角色权限管理
CAM 访问管理是用户使用腾讯云资源的基本权限管理，空间角色权限管理是流计算 Oceanus 提供的对作业、资源更细粒度的权限管理，服务委托授权是流计算 Oceanus 访问您其他云服务资源的权限管理。
CAM 访问管理
您 注册腾讯云 时，生成的账号为主账号，拥有该主账号下所有云资源的管理权限。如您需要其他用户能协助您一起管理账号下的云资源，您可以通过访问管理（CAM）创建、管理和销毁用户/用户组，并使用身份管理和策略管理控制其他用户使用腾讯云资源的权限。
服务委托授权
流计算底层的系统服务需要获得您的授权委托，来正常访问客户 VPC 下的 CKafka、COS、CLS 等各种云服务资源，这是流计算 Oceanus 系统正常运行所需要的最基础的授权。此权限无须主动寻找和配置，在使用流计算 Oceanus 过程中，涉及此授权时，系统会自动弹出授权界面。
空间角色权限管理 
腾讯云统一的访问管理 CAM 下，流计算 Oceanus 有自己的一套预设空间角色权限系统，意在帮助企业各部们业务之间协同作业。Oceanus 空间角色权限能够实现不同业务之间的计算资源的隔离和细粒度调配，能够控制不同成员对作业、文件资源的可见性和可操作性。通过作业空间隔离空间内的作业/元数据/依赖等资源，在空间内通过预设角色的方式，给每个子账号赋予不同的角色，每个角色具有不同的权限。 

基础权限配置指引

最近更新时间：2023-11-08 10:28:48

本文档为 Oceanus 子用户权限配置指引，子用户的权限需要主账号进行授权（如您是子用户，请联系您主账号的持有人配置授权），具体授权步骤请您参考下文，按下文授权后子用户即可正常使用。
权限一：CAM 访问管理
流计算 Oceanus 采用腾讯云统一的访问管理 CAM 服务来帮助客户管理企业内不同用户对资源的访问权限，详情请参见 访问管理。
为子用户设置 Oceanus 访问授权
主账号默认拥有访问流计算 Oceanus 所有资源的权限，子账号默认不拥有访问流计算 Oceanus 资源的权限，此时若以子账号访问 Oceanus 会受到 CAM 的鉴权错误提示。
可参考 授权管理，或者前往 访问管理 将预设策略 QcloudOceanusFullAccess 授权给用户。通过主账号对子账号授予策略 QcloudOceanusFullAccess，来帮助子账号拥有访问流计算 Oceanus 的权限，详情参见 CAM 访问管理。
权限二：服务委托授权
流计算底层的系统服务需要获得您的授权委托，来正常访问客户 VPC 下的 CKafka、COS、CLS 等各种云服务资源，这是流计算 Oceanus 系统正常运行所需要的最基础的授权。
此权限有两种配置方式，第一种为：在使用流计算 Oceanus 过程中，涉及此授权时，系统会自动弹出授权界面。但是只有主账户、拥有 QcloudCamRoleFullAccess 权限的子用户、拥有 QcloudCamSubaccountsAuthorizeRoleFullAccess 权限的子用户可以进行自动授权操作。
第二种为子账号额外 PassRole 授权，如下所示。
子账号额外的 PassRole 授权
用户以子账号身份登录，且已完成上述授权操作，成功创建 Oceanus_QCSRole 角色后，流计算底层系统服务仍然无法成功申请扮演 Oceanus_QCSRole 角色。
此时，需要主账号或具有管理权限的子账号，对子账号授予 PassRole 权限，使其可以传递流计算角色给底层系统服务。这样在子账号登录时，流计算底层系统服务就可以访问客户 VPC 下的 CKafka、COS、CLS 等其他云服务资源。
具体操作：使用主账号或具有管理权限的子账号新建策略，然后授权给子账号 cam:PassRole 权限。
策略内容
{
    "version": "2.0",
    "statement": [
        {
            "effect": "allow",
            "action": "cam:PassRole",
            "resource": "qcs::cam::uin/${OwnerUin}:roleName/Oceanus_QCSRole"
        }
    ]
}
说明
 上述策略中 OwnerUin 指的是主账号的 账号 ID。
创建策略请参见 创建自定义策略。
授权请参见 授权管理。
操作步骤
1. 进入 按策略语法创建 策略页面，选择空白模板：
2. 在编辑策略页面，填入上文的策略（注意替换主账号的 UIN）。
3. 返回 策略 页面，搜索刚创建的策略，关联对应的子用户/用户组。
4. 选择需要授权的子用户，并单击确定。
﻿
注意：
至此，您刚配置好权限一和权限二的子用户可以正常的访问 Oceanus 产品以及在 Oceanus 产品内正常访问客户 VPC 下的 CKafka、COS、CLS 等各种云服务资源。如您需要设置流计算 Oceanus 提供的对作业、资源更细粒度的权限管理，请参考Oceanus 空间角色权限。
﻿

空间角色权限

最近更新时间：2023-11-08 10:16:26

腾讯云统一的访问管理 CAM 下，流计算 Oceanus 有自己的一套预设空间角色权限系统，意在帮助企业各部门业务之间协同作业。Oceanus 空间角色权限能够实现不同业务之间的计算资源的隔离和细粒度调配，能够控制不同成员对作业、文件资源的可见性和可操作性。
流计算 Oceanus 预设角色权限
流计算 Oceanus 空间预设角色，一共有四类角色： 
1. 超级管理员：通过主账号指定，享有除主账号外的最高权限，超级管理员账号在用地不同地域间共享。
2. 空间管理员：通过主账号指定或者超级管理员账号账号指定，可以在空间内增加删除空间成员。
3. 开发者：在成员管理模块可由空间管理员/超级管理员/主账号添加到空间，可以在空间内基础作业。
4. 预览者：在成员管理模块可由空间管理员/超级管理员/主账号添加到空间，只享有查看的权限。
预设角色权限详见下表：
功能分类
超级管理员
空间管理员
开发者
预览者
新建/销毁集群
✔️
❌
❌
❌
修改集群信息
✔️
❌
❌
❌
续费/变配
✔️
❌
❌
❌
查看集群
✔️
✔️
✔️
✔️
增加/删除空间
✔️
❌
❌
❌
修改空间属性
✔️
❌
❌
❌
集群和空间关联/解除关联
✔️
❌
❌
❌
增加/删除空间成员
✔️
✔️
❌
❌
修改空间成员角色
✔️
✔️
❌
❌
编辑超级管理员
✔️
❌
❌
❌
新建/删除作业
✔️
✔️
✔️
❌
运行/停止作业
✔️
✔️
✔️
❌
开发/调试作业
✔️
✔️
✔️
❌
监控告警
✔️
✔️
✔️
❌
查看作业
✔️
✔️
✔️
✔️
创建/删除依赖资源
✔️
✔️
✔️
❌
编辑依赖资源
✔️
✔️
✔️
❌
查看依赖资源
✔️
✔️
✔️
✔️
创建/删除元数据库
✔️
✔️
✔️
❌
创建/删除元数据表
✔️
✔️
✔️
❌
查看元数据
✔️
✔️
✔️
✔️
操作目录
✔️
✔️
✔️
❌
流计算 Oceanus 角色权限授权过程
在进行空间角色权限授权前，您应当完成为子用户授权 Oceanus 访问授权和为子用户授权 CAM 访问授权。详情见权限配置指引。
1. 添加超级管理员。
使用主账号或者超级管理员账号进入角色权限模块，单击编辑按钮添加一个或者多个子账号为超级管理员。超级管理员账号享有除主账号外的最高权限，超级管理员账号在不同地域间共享。
说明
超级管理员账号，可以辅助主账号，方便主账号不方便使用的场景。这里可以选择配置。
如果使用非主账号或者超级管理账号，不会出现编辑按钮。
2. 使用主账号或者超管账号创建空间。
使用主账号或者超级管理员账号进入工作空间模块，单击新建工作空间。
说明
  空间个数限制： 一个 APPID 在一个地域创建工作空间数量的上限为 30。
3. 为空间绑定计算资源。
使用主账号或者超级管理员账号进入工作空间模块，选择创建的工作空间，单击去关联，会跳转到计算资源模块。
在计算资源模块选择相应的集群进行关联即可。至此计算资源和空间的关联关系就建立好了，在空间里创建作业就会出现绑定的计算资源。解除绑定关系也是同样的步骤操作，进入计算资源模块，选择集群解除关联即可。
说明
  空间和集群的关联限制：限制一个集群最多可被10个空间使用，但不限制一个空间可使用的集群数量。
4. 空间内添加子账号并赋予角色。
使用主账号或者超级管理员或者空间管理员账号进入工作空间模块，进入创建的空间，进入成员管理模块。单击添加成员即可。
添加自定义角色权限
1. 单击添加自定义角色。
2. 填写信息后保存。
3. 保存后即可按照权限使用规则赋予权限。
﻿

字段	含义
作业名称	该作业的名称（在创建作业中自己填写的自定义名称，可更改）
集群	作业所在集群名称
集群 ID	作业所在集群 ID
作业 ID	该作业的 Serial ID 信息，通常以 cql- 开头（随机分派，不可更改）
作业类型	作业的类型，目前有 JAR、SQL 、Python 和 ETL 四种类型
运行状态	作业的当前状态，例如未初始化、未发布、操作中、运行中、停止、故障等
地域	作业运行的集群所在的地理大区，例如广州、上海、北京等
可用区	作业运行的集群的可用区，例如上海三区
线上版本	正在运行的版本
创建时间	作业被创建的时间点
累计运行时长	作业历史上总共运行的时长
开始运行时间	作业本次开始运行的时间点
运行时长	作业本次运行所持续的时长
计算资源	作业本次运行所占用的 CU 数 = JobManager CU 数 + TaskManager CU 数，其中：JobManager CU 数 = 1（每个作业默认占用1个）TaskManager CU 数 = 最大并行度 * 单个并行度的 CU 数

快照保存策略	快照清理行为
DELETE_ON_CANCELLATION （默认策略）	1. 停止时快照，原有 Checkpoint 删除，无法从 Checkpoint 恢复 2. 停止时不进行快照，原有 Checkpoint 删除，无法从 Checkpoint 恢复
RETAIN_ON_CANCELLATION	1. 停止时快照，原有 Checkpoint 删除，无法从 Checkpoint 恢复 2. 停止时不进行快照，原有 Checkpoint 不删除，可以从 Checkpoint 恢复
RETAIN_ON_SUCCESS	1. 停止时快照，原有 Checkpoint 不删除，可以从 Checkpoint 恢复 2. 停止时不进行快照，原有 Checkpoint 不删除，可以从 Checkpoint 恢复

字段名	说明	例
instanceId	作业ID	cql-xxxxxx
folderId	作业所在目录ID	folder-xxxxxxxx
creatorUin	作业创建人uin	123456
clusterId	作业所在集群ID	cluster-xxxxxxxx
workSpaceId	作业所在工作空间ID	space-xxxxxxxx

指标中文名	指标含义	示例值
作业每秒输入的记录数	作业所有数据源（Source）每秒输入的数据总条数	22478.14 Record/s
作业每秒输出的记录数	作业所有数据目的（Sink）每秒输出的数据总条数	12017.09 Record/s
作业每秒输入的数据量	作业所有数据源（Source）每秒输入的数据总量（仅对 Kafka Source 有效）	786576 Byte/s
作业每秒输出的数据量	作业所有数据目的（Sink）每秒输出的数据总量（仅对 Kafka Sink 有效）	156872 Byte/s
算子计算总耗时	数据流经各个算子时的耗时总和。可能存在采样误差，数值仅供参考	275 ms
目的端 Watermark 延时	当前时间戳与数据目的（Sink）输入侧 Watermark 之间的差值（多个 Sink 则取最大值）	5432 ms
TaskManager CPU 使用率	作业中所有 TaskManager 的平均 CPU 使用率	23.85%
TaskManager 堆内存使用率	作业中所有 TaskManager 的平均堆内存使用率	57.12%
TaskManager 堆内存用量	作业中所有 TaskManager 的当前堆内存用量总和	830897056.00 Bytes
TaskManager 已提交的堆内存容量	作业中所有 TaskManager 已提交（committed）的堆内存容量总和	4937220096.00 Bytes
TaskManager 堆内存最大容量	作业中所有 TaskManager 的堆内存最大（max）容量总和	4937220096.00 Bytes
TaskManager 非堆内存用量	作业中所有 TaskManager 非堆内存（JVM 元空间、代码缓存等）用量总和	296651064.00 Bytes
TaskManager 已提交的非堆内存容量	作业中所有 TaskManager 已提交（committed）的非堆内存（JVM 元空间、代码缓存等）用量总和	103219200.00 Bytes
TaskManager 非堆内存最大容量	作业中所有 TaskManager 非堆内存（JVM 元空间、代码缓存等）最大容量总和	780140544.00 Bytes
所有 TaskManager JVM 的物理内存用量的最大值	作业中所有 TaskManager 所在的 JVM 的物理内存用量（RSS）的最大值，包括堆内、堆外、Native 等所有区域的总内存用量。该指标可用于对容器 OOM Killed 事件的预警	3597035110.00 Bytes
TaskManager 堆外直接内存缓存数	作业中所有 TaskManager 堆外直接内存（Direct Buffer Pool）中的缓存（Buffer）个数之和	10993.00 Items
TaskManager 堆外直接内存用量	作业中所有 TaskManager 堆外直接内存（Direct Buffer Pool）的用量之和	360328431.00 Bytes
TaskManager 堆外直接内存总容量	作业中所有 TaskManager 堆外直接内存（Direct Buffer Pool）的最大容量之和	360328431.00 Bytes
TaskManager 堆外映射内存缓存数	作业中所有 TaskManager 堆外映射内存（Mapped Buffer Pool）中的缓存（Buffer）个数之和	4 Items
TaskManager 堆外映射内存用量	作业中所有 TaskManager 堆外映射内存（Mapped Buffer Pool）的用量之和	33554432.00 Bytes
TaskManager 堆外映射内存总容量	作业中所有 TaskManager 堆外映射内存（Mapped Buffer Pool）的最大容量之和	33554432.00 Bytes
JobManager 老年代 GC 次数	当前作业 JobManager 老年代 GC 次数	3.00 Times
JobManager 老年代 GC 时间	当前作业 JobManager 老年代 GC 时间	701.00 ms
JobManager 年轻代 GC 次数	当前作业 JobManager 年轻代 GC 次数	53.00 Times
JobManager 年轻代 GC 时间	当前作业 JobManager 年轻代 GC 时间	4094.00 ms
最近一次的 Checkpoint 耗时	当前作业最近一次的 Checkpoint 耗时	723.00 ms
最近一次的 Checkpoint 大小	当前作业最近一次的 Checkpoint 大小	751321.00 Bytes
TaskManager 老年代 GC 次数	作业中所有 TaskManager 老年代 GC 次数之和	9.00 Times
TaskManager 老年代 GC 时间	作业中所有 TaskManager 老年代 GC 时间之和	2014.00 ms
TaskManager 年轻代 GC 次数	作业中所有 TaskManager 年轻代 GC 次数之和	889.00 Times
TaskManager 年轻代 GC 时间	作业中所有 TaskManager 年轻代 GC 时间之和	15051.00 ms
Checkpoint 成功完成次数	当前作业 Checkpoint 成功完成次数	11.00 Times
Checkpoint 失败次数	当前作业 Checkpoint 失败（例如超时、遇到异常等）的次数	1.00 Times
正在进行的 Checkpoint 个数	当前作业进行中（未完成）的 Checkpoint 个数	1.00 Times
Checkpoint 总次数	Checkpoint 总次数（进行中、已完成和失败的总和）	13.00 Times
严重异常数据个数	算子中发生严重异常（例如抛出各种 Exception）的数据个数，如果大于1则会影响 Exactly-Once 语义（试验参数，仅供参考）	0.00 Times
当前实例崩溃重启次数	当前实例 JobManager 记录的任务崩溃重启次数（不含 JobManager 退出后作业重新拉起的场景）	10.00 Times
JobManager 堆内存使用率	当前作业 JobManager 堆内存使用率	31.34%
JobManager 堆内存的用量	当前作业 JobManager 堆内存的用量	1040001560.00 Bytes
JobManager 已提交的堆内存容量	当前作业 JobManager 已提交（committed）的堆内存容量	3318218752.00 Bytes
JobManager 堆内存最大容量	当前作业 JobManager 堆内存最大容量	3318218752.00 Bytes
JobManager 非堆内存用量	当前作业 JobManager 非堆内存（JVM 元空间、代码缓存等）用量	117362656.00 Bytes
JobManager 已提交的非堆内存容量	当前作业已提交（committed）的 JobManager 非堆内存（JVM 元空间、代码缓存等）容量	122183680.00 Bytes
JobManager 非堆内存最大容量	当前作业 JobManager 非堆内存（仅限 JVM 元空间、代码缓存等）的最大容量	780140544.00 Bytes
JobManager 所在的 JVM 的物理内存用量	当前作业 JobManager 所在的 JVM 的物理内存用量（RSS），包括堆内、堆外、Native 等所有区域的总内存用量。该指标可用于对容器 OOM Killed 事件的预警	3597035110.00 Bytes
JobManager CPU 使用率	当前作业 JobManager 的 CPU 使用率	7.12%
JobManager CPU 使用时长	当前作业 JobManager CPU 使用时长（毫秒）	834490.00 ms
作业中断运行时间	对于失败或恢复等非运行状态的作业，表示本次中断运行的时长。对于正在运行中的作业，值为0	1088466.00 ms
作业无中断持续执行的时间	对于运行中的作业，表示当次作业持续处于运行中的时长	202305.00 ms
作业重启耗时	作业最近一次重启耗时	197181.00 ms
作业最近一次恢复的时间戳	作业最近一次从快照恢复的 Unix 时间戳（以毫秒为单位，如果未恢复过则是-1）	1621934344137.00 ms
JobManager 堆外映射内存缓存数	JobManager 堆外映射内存（Mapped Buffer Pool）中的缓存（Buffer）个数	4.00 Items
JobManager 堆外映射内存的使用量	JobManager 堆外映射内存（Mapped Buffer Pool）的用量	33554432.00 Bytes
JobManager 堆外映射内存的总容量	JobManager 堆外映射内存（Mapped Buffer Pool）的最大用量	33554432.00 Bytes
JobManager 堆外直接内存中的缓存数	JobManager 堆外直接内存（Direct Buffer Pool）中的缓存（Buffer）个数	22.00 Items
JobManager 堆外直接内存使用量	JobManager 堆外直接内存（Direct Buffer Pool）的用量	575767.00 Bytes
JobManager 堆外直接内存总容量	JobManager 堆外直接内存（Direct Buffer Pool）的最大用量	577814.00 Bytes
注册的 TaskManager 数	当前作业已注册的 TaskManager 数，通常等于所有算子并行度的最大值。如果 TaskManager 个数减少，说明存在 TaskManager 失联，作业可能崩溃并尝试恢复	3.00 TaskManagers
运行中的作业数	正在运行中作业数。如果作业正常运行，则值为1。如果作业崩溃，则值为0	1.00 Jobs
可用任务槽数量	如果作业正常运行，则可用的任务槽（Task Slot）数为0。如果不为0，则说明作业可能出现短时间的非运行状态	0.00 Slots
任务槽总数	Oceanus 中一个 TaskManager 只有一个任务槽，因此任务槽总数等于注册的 TaskManager 数	3.00 Slots
JobManager 活动线程数	当前作业 JobManager 中活动的线程数，含 Daemon 和非 Daemon 线程	77.00 Threads
TaskManager CPU 使用时长	作业中所有 TaskManager CPU 使用时长总和（毫秒）	2029230.00 ms
TaskManager 可用的 MemorySegment 个数	作业中所有 TaskManager 的可用 MemorySegment 个数之和	32890.00 Items
TaskManager 已分配的 MemorySegment 总数	作业中所有 TaskManager 已分配的 MemorySegment 个数总和	32931.00 Items
TaskManager 活动线程数	作业中所有 TaskManager 中活动的线程数之和，含 Daemon 和非 Daemon 线程	207.00 Threads
上次 Checkpoint 大小	上个快照存储的大小	1024字节
Checkpoint 耗时	上个快照存储所耗时间	100ms
Checkpoint 失败总次数	保存快照累计失败次数	1次
JM CPU Load	JobManager 维度的 JVM 最近 CPU 利用率	12%
JM Heap Memory	JobManager 维度的堆内存使用情况	1次
JM GC Count	JobManager 维度的 `Status.JVM.GarbageCollector.<GarbageCollector>.Count`，GC（垃圾回收）次数	5次
JM GC Time	JobManager 维度的 `Status.JVM.GarbageCollector.<GarbageCollector>.Time`，GC（垃圾回收）时间	64ms
TaskManager CPU Load	选中的 TaskManager 维度的 JVM 最近 CPU 利用率	70%
TaskManager Heap Memory	选中的 TaskManager 维度的堆内存使用情况	50字节
TaskManager GC Count	选中的 TaskManager 维度的 `Status.JVM.GarbageCollector.<GarbageCollector>.Count`，GC（垃圾回收）次数	5次
TaskManager GC Time	选中的 TaskManager 维度的 `Status.JVM.GarbageCollector.<GarbageCollector>.Time`，GC（垃圾回收）时间	5ms
Task OutPoolUsage	输出队列百分比，达到100%时任务达到完全反压状态	64%
Task OutputQueueLength	输出队列个数	6
Task InPoolUsage	输入队列百分比，达到100%时任务达到完全反压状态	64%
Task InputQueueLength	输入队列个数	6
Task CurrentInputWatermark	当前水位	1623814418
数据流入耗时(ETL)	当前作业 Source 拿到数据已经产生的延迟时间	10 ms
作业每秒输入的记录条数(ETL)	当前作业所有 source 的加和速率	342 条/秒
批间隔时间(ETL)	当前作业 Source 处理数据的批间隔，间接反应 source 空闲状态	24532223 ms
source 处理延迟(ETL)	当前作业 Source 拿到数据并处理的延迟时间	1345 ms
Binglog/lsn 的位点信息(ETL)	当前作业 mysql binlog 的 pos 点位/pg 的 lsn 号	260690147
算子计算总耗时(ETL)	当前作业统计 Sink 与 Source算子之间的平均延迟时间	49 ms
sink 刷新延迟(ETL)	当前作业 sink 的延迟 flush 时间+异步回调时间	30 ms
作业每秒输出的记录条数(ETL)	当前作业所有 sink 的加和速率	234 条/秒
数据源-存量同步（ETL）	当前作业存量数据的同步进度	30%
数据源-增量同步（ETL）	针对 mysql 同步延迟指的是当前 souce 处理 binlog 位点和 mysql 实例源最新的 binlog 的最后一次采样的缺口值，针对 postgresql 同步延迟指的是当前 souce 处理 lsn 日志号和 postgresql 实例源最新的 lsn 日志号的最后一次采样缺口值	205
Kafka - Records_Lag 最大值	Taskmanager 上报的 kafka-lag-max 最大值（kafka-lag-max：生产者当前偏移量和消费者当前偏移量之间的计算差值）	100
Kafka - Records_Lag 最小值	Taskmanager 上报的 kafka-lag-max 最小值（kafka-lag-max：生产者当前偏移量和消费者当前偏移量之间的计算差值）	50
Kafka - Records_Lag 均值	Taskmanager 上报的 kafka-lag-max 均值（kafka-lag-max：生产者当前偏移量和消费者当前偏移量之间的计算差值）	80
Kafka - Records_Lag 求和值	各个 Taskmanager 上报的 kafka-lag-max 的求和值（kafka-lag-max：生产者当前偏移量和消费者当前偏移量之间的计算差值）	500
数据在外部系统的滞留时间（毫秒）	指标计算公式：数据被 Source 读取的时间（FetchTime）- 数据事件时间（EventTime）。该指标反映了数据在外部系统的滞留情况	10
数据在外部系统和 Source 中的滞留时间（毫秒）	指标计算公式：数据离开 Source 的时间（EmitTime）- 数据事件时间（EventTime）。该指标反映了数据在外部系统和 Source 中的滞留情况	20
反压指标（%）	作业所有 SubTask 的反压百分比的最大值	30%
数据倾斜程度	指标为每个作业的 SubTask 的数据输入量的离散系数（=标准差/均值）的最大值，小于 10% 属于弱倾斜	10%

状态码	可能原因	解决方案
137	作业内存占用过大，超出 Pod 配额，导致被 OOMKilled	根据作业资源配置增加算子并行度、提升 TaskManager 的 CU 规格
-1	兜底策略，表示 Pod 退出但是并未得到退出码，可能是系统错误等	请提工单联系技术支持排查
0	Pod 启动过程中，由于无法在用户绑定的子网中分配 IP（例如 IP 耗尽），导致启动失败退出	检查集群绑定的 VPC 的子网是否有剩余 IP。如果 IP 余量充足，请提工单联系技术支持排查
1	Flink 初始化期间发生了异常，导致启动失败	通常是基础类冲突或者关键配置文件被覆盖导致的，可在日志中搜索 `Could not start cluster entrypoint` 关键字附近的异常信息。如果未能确定原因，请提工单联系技术支持排查
2	Flink JobManager 启动期间发生了致命错误	日志中搜索 `Fatal error occurred in the cluster entrypoint` 关键字附近的异常信息。如果未能确定原因，请提工单联系技术支持排查
239	Flink 的执行线程发生了未捕获的致命错误	日志中搜索 `produced an uncaught exception. Stopping the process` 等关键字附近的异常信息。如果未能确定原因，请提工单联系技术支持排查

Flink 版本	说明
1.11	不支持
1.13	支持 hive 版本2.2.0、2.3.2、2.3.5、3.1.1
1.14	不支持

字段	含义
集群名称	自定义集群名称
集群 ID	系统自动生成的集群唯一识别序列号
集群状态	集群目前的运行状态
集群描述	用户自定义的帮助识别此集群的描述
计算资源（CU）	集群空闲的 CU/集群总共拥有的 CU
地域/可用区	此集群所在的地域/可用区
VPC	独享集群关联的 VPC 和子网，流计算 Oceanus 通过弹性网卡将流计算独享集群与用户的 VPC 网络打通，从而可以访问该网络环境下的资源和服务
COS 存储	集群创建时绑定的 COS 存储桶
日志	集群创建时绑定的 CLS 日志集和日志主题
标签	集群被打上的标签
计费模式	目前支持按量付费和包年包月
Flink 版本	集群部署的 Flink 版本号
创建时间	集群创建的时间
DNS	集群的DNS配置
Flink UI 访问策略	可以设置 Flink UI 的访问策略，不设置可访问 IP 白名单时，默认所有公网 IP 均可访问

功能分类	超级管理员	空间管理员	开发者	预览者
新建/销毁集群	✔️	❌	❌	❌
修改集群信息	✔️	❌	❌	❌
续费/变配	✔️	❌	❌	❌
查看集群	✔️	✔️	✔️	✔️
增加/删除空间	✔️	❌	❌	❌
修改空间属性	✔️	❌	❌	❌
集群和空间关联/解除关联	✔️	❌	❌	❌
增加/删除空间成员	✔️	✔️	❌	❌
修改空间成员角色	✔️	✔️	❌	❌
编辑超级管理员	✔️	❌	❌	❌
新建/删除作业	✔️	✔️	✔️	❌
运行/停止作业	✔️	✔️	✔️	❌
开发/调试作业	✔️	✔️	✔️	❌
监控告警	✔️	✔️	✔️	❌
查看作业	✔️	✔️	✔️	✔️
创建/删除依赖资源	✔️	✔️	✔️	❌
编辑依赖资源	✔️	✔️	✔️	❌
查看依赖资源	✔️	✔️	✔️	✔️
创建/删除元数据库	✔️	✔️	✔️	❌
创建/删除元数据表	✔️	✔️	✔️	❌
查看元数据	✔️	✔️	✔️	✔️
操作目录	✔️	✔️	✔️	❌