华为云UCS-volcano:Prometheus指标采集
Prometheus指标采集
volcano-scheduler通过端口8080暴露Prometheus metrics指标。您可以自建Prometheus采集器识别并通过http://{{volcano-schedulerPodIP}}:{{volcano-schedulerPodPort}}/metrics路径获取volcano-scheduler调度相关指标。
Prometheus指标暴露仅支持volcano插件1.8.5及以上版本。
指标名称 |
指标类型 |
描述 |
Labels |
---|---|---|---|
e2e_scheduling_latency_milliseconds |
Histogram |
端到端调度时延毫秒(调度算法+绑定) |
- |
e2e_job_scheduling_latency_milliseconds |
Histogram |
端到端作业调度时延(毫秒) |
- |
e2e_job_scheduling_duration |
Gauge |
端到端作业调度时长 |
labels=["job_name", "queue", "job_namespace"] |
plugin_scheduling_latency_microseconds |
Histogram |
插件调度延迟(微秒) |
labels=["plugin", "OnSession"] |
action_scheduling_latency_microseconds |
Histogram |
动作调度时延(微秒) |
labels=["action"] |
task_scheduling_latency_milliseconds |
Histogram |
任务调度时延(毫秒) |
- |
schedule_attempts_total |
Counter |
尝试调度Pod的次数。“unschedulable”表示无法调度Pod,而“error”表示内部调度器问题 |
labels=["result"] |
pod_preemption_victims |
Gauge |
选定的抢占受害者数量 |
- |
total_preemption_attempts |
Counter |
集群中的抢占尝试总数 |
- |
unschedule_task_count |
Gauge |
无法调度的任务数 |
labels=["job_id"] |
unschedule_job_count |
Gauge |
无法调度的作业数 |
- |
job_retry_counts |
Counter |
作业的重试次数 |
labels=["job_id"] |