华为云UCS-volcano:Prometheus指标采集

时间:2023-11-01 16:25:09

Prometheus指标采集

volcano-scheduler通过端口8080暴露Prometheus metrics指标。您可以自建Prometheus采集器识别并通过http://{{volcano-schedulerPodIP}}:{{volcano-schedulerPodPort}}/metrics路径获取volcano-scheduler调度相关指标。

Prometheus指标暴露仅支持volcano插件1.8.5及以上版本。

表3 关键指标说明

指标名称

指标类型

描述

Labels

e2e_scheduling_latency_milliseconds

Histogram

端到端调度时延毫秒(调度算法+绑定)

-

e2e_job_scheduling_latency_milliseconds

Histogram

端到端作业调度时延(毫秒)

-

e2e_job_scheduling_duration

Gauge

端到端作业调度时长

labels=["job_name", "queue", "job_namespace"]

plugin_scheduling_latency_microseconds

Histogram

插件调度延迟(微秒)

labels=["plugin", "OnSession"]

action_scheduling_latency_microseconds

Histogram

动作调度时延(微秒)

labels=["action"]

task_scheduling_latency_milliseconds

Histogram

任务调度时延(毫秒)

-

schedule_attempts_total

Counter

尝试调度Pod的次数。“unschedulable”表示无法调度Pod,而“error”表示内部调度器问题

labels=["result"]

pod_preemption_victims

Gauge

选定的抢占受害者数量

-

total_preemption_attempts

Counter

集群中的抢占尝试总数

-

unschedule_task_count

Gauge

无法调度的任务数

labels=["job_id"]

unschedule_job_count

Gauge

无法调度的作业数

-

job_retry_counts

Counter

作业的重试次数

labels=["job_id"]

support.huaweicloud.com/usermanual-ucs/cce_10_0193.html