数据湖探索 DLI-使用CES监控DLI服务:监控指标

时间:2024-11-14 11:04:48

监控指标

表1 数据湖探索 服务支持的监控指标

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

queue_cu_num

队列CU使用量

展示用户队列申请的CU数

≥0

队列

5分钟

queue_job_launching_num

提交中作业数

展示用户队列中状态为提交中的作业数。

≥0

队列

5分钟

queue_job_running_num

运行中作业数

展示用户队列中状态为运行中的作业数。

≥0

队列

5分钟

queue_job_succeed_num

已完成作业数

展示用户队列中状态为已完成的作业数。

≥0

队列

5分钟

queue_job_failed_num

已失败作业数

展示用户队列中状态为已失败的作业数。

≥0

队列

5分钟

queue_job_cancelled_num

已取消作业数

展示用户队列中状态为已取消的作业数。

≥0

队列

5分钟

queue_alloc_cu_num

队列CU分配量

展示用户队列的CU分配情况。

≥0

队列

5分钟

queue_min_cu_num

队列最小CU

展示用户队列中的最小CU。

≥0

队列

5分钟

queue_max_cu_num

队列最大CU

展示用户队列中的最大CU。

≥0

队列

5分钟

queue_priority

队列优先级

展示用户队列的优先级。

1~100

队列

5分钟

queue_cpu_usage

队列CPU使用率

展示用户队列的CPU使用率。

该指标仅适用于普通队列。

0~100

队列

5分钟

queue_disk_usage

队列磁盘使用率

展示用户队列的磁盘使用率。

该指标仅适用于普通队列。

0~100

队列

5分钟

queue_disk_used

队列磁盘使用率最大值

展示用户队列的磁盘使用率的最大值。

该指标仅适用于普通队列。

0~100

队列

5分钟

queue_mem_usage

队列内存使用率

展示用户队列的内存使用率。

该指标仅适用于普通队列。

0~100

队列

5分钟

queue_mem_used

队列内存使用量

展示用户队列的内存使用量。

该指标仅适用于普通队列。

≥0

队列

5分钟

flink_read_records_per_second

Flink作业数据输入速率

展示用户Flink作业的数据输入速率,供监控和调试使用。

≥0

Flink作业

10秒钟

flink_write_records_per_second

Flink作业数据输出速率

展示用户Flink作业的数据输出速率,供监控和调试使用。

≥0

Flink作业

10秒钟

flink_read_records_total

Flink作业数据输入总数

展示用户Flink作业的数据输入总数,供监控和调试使用。

≥0

Flink作业

10秒钟

flink_write_records_total

Flink作业数据输出总数

展示用户Flink作业的数据输出总数,供监控和调试使用。

≥0

Flink作业

10秒钟

flink_read_bytes_per_second

Flink作业字节输入速率

展示用户Flink作业每秒输入的字节数。

≥0

Flink作业

10秒钟

flink_write_bytes_per_second

Flink作业字节输出速率

展示用户Flink作业每秒输出的字节数。

≥0

Flink作业

10秒钟

flink_read_bytes_total

Flink作业字节输入总数

展示用户Flink作业字节的输入总数。

≥0

Flink作业

10秒钟

flink_write_bytes_total

Flink作业字节输出总数

展示用户Flink作业字节的输出总数。

≥0

Flink作业

10秒钟

flink_cpu_usage

Flink作业CPU使用率

展示用户Flink作业的CPU使用率。

0~100

Flink作业

10秒钟

flink_mem_usage

Flink作业内存使用率

展示用户Flink作业的内存使用率。

0~100

Flink作业

10秒钟

flink_max_op_latency

Flink作业最大算子延迟

展示用户Flink作业的最大算子延迟时间,单位ms。Flink时间模型具体可以参考配置时间模型

≥0

Flink作业

10秒钟

flink_max_op_backpressure_level

Flink作业最大算子反压

展示用户Flink作业的最大算子反压值,数值越大,反压越严重。

0:表示OK

50:表示Low

100:表示High

0~100

Flink作业

10秒钟

elastic_resource_pool_cpu_usage

弹性资源池CPU使用率

展示用户弹性资源池的CPU使用率。

0~100

弹性资源池

5分钟

elastic_resource_pool_mem_usage

弹性资源池内存使用率

展示用户弹性资源池的内存使用率。

0~100

弹性资源池

5分钟

elastic_resource_pool_disk_usage

弹性资源池磁盘使用率

展示用户弹性资源池的磁盘使用率。

0~100

弹性资源池

5分钟

elastic_resource_pool_disk_max_usage

弹性资源池磁盘使用率最大值

展示用户弹性资源池的磁盘使用率最大值。

0~100

弹性资源池

5分钟

elastic_resource_pool_cu_num

弹性资源池CU使用量

展示用户弹性资源池的CU使用量。

≥0

弹性资源池

5分钟

elastic_resource_pool_alloc_cu_num

弹性资源池CU分配量

展示用户弹性资源池的CU分配情况。

≥0

弹性资源池

5分钟

elastic_resource_pool_min_cu_num

弹性资源池最小CU

展示用户弹性资源池的最小CU。

≥0

弹性资源池

5分钟

elastic_resource_pool_max_cu_num

弹性资源池最大CU

展示用户弹性资源池的最大CU。

≥0

弹性资源池

5分钟

support.huaweicloud.com/usermanual-dli/dli_01_0445.html