华为云UCS-云原生日志采集插件:log-agent指标说明

时间:2024-09-12 15:06:04

log-agent指标说明

log-agent插件的log-operator、fluent-bit和otel-collector组件提供了一系列指标,您可以使用 AOM 或Prometheus来监控这些指标,以便及时了解log-agent插件的运行情况,具体操作可参考使用AOM监控自定义指标使用Prometheus监控自定义指标。详细的指标如下所述:

  • log-operator组件(仅华为云集群)

    端口:8443;地址:/metrics;协议:https

    表7 指标

    指标名

    说明

    类型

    log_operator_aksk_latest_update_times

    AK/SK最后更新时间

    Gauge

    log_operator_aksk_update_total

    AK/SK更新次数

    Counter

    log_operator_send_request_total

    发送请求数

    Counter

    log_operator_webhook_listen_status

    Webhook监听状态

    Gauge

    log_operator_http_request_duration_seconds

    HTTP请求时延

    Histogram

    log_operator_http_request_total

    HTTP请求数

    Counter

    log_operator_webhook_request_total

    Webhook请求数

    Counter

  • fluent-bit组件

    端口:2020;地址:/api/v1/metrics/prometheus;协议:http

    表8 指标

    指标名

    说明

    类型

    fluentbit_filter_add_records_total

    用于记录在过滤器中添加的记录总数

    Counter

    fluentbit_filter_drop_records_total

    用于记录被过滤掉的日志记录数量

    Counter

    fluentbit_input_bytes_total

    用于衡量Fluent Bit在处理日志数据时输入的总字节数

    Counter

    fluentbit_input_files_closed_total

    用于记录关闭的文件总数

    Counter

    fluentbit_input_files_opened_total

    用于监控Fluent Bit的文件输入插件(input plugin)打开的文件数量

    Counter

    fluentbit_input_files_rotated_total

    用于记录Fluent Bit输入插件已经轮转的文件总数

    Counter

    fluentbit_input_records_total

    用于衡量 Fluent Bit 在输入插件中处理的记录数

    Counter

    fluentbit_output_dropped_records_total

    用于记录输出插件丢弃的记录数量

    Counter

    fluentbit_output_errors_total

    用于监控 Fluent Bit 的输出错误数量

    Counter

    fluentbit_output_proc_bytes_total

    用于监控 Fluent Bit 的输出插件(output plugin)处理的总字节数

    Counter

    fluentbit_output_proc_records_total

    用于监控 Fluent Bit 的输出插件处理的记录数

    Counter

    fluentbit_output_retried_records_total

    用于衡量 Fluent Bit 在输出数据时重试的次数

    Counter

    fluentbit_output_retries_total

    用于衡量 Fluent Bit 在发送数据到输出插件时发生重试的次数

    Counter

    fluentbit_uptime

    Fluent Bit 运行的时间,通常以秒为单位

    Counter

    fluentbit_build_info

    用于显示Fluent Bit的版本和构建信息

    Gauge

  • otel-collector组件

    端口:8888;地址:/metrics;协议:http

    表9 指标

    指标名

    说明

    类型

    otelcol_exporter_enqueue_failed_log_records

    用于衡量OpenTelemetry Collector在将日志记录发送到下游系统时,由于某些原因无法成功发送的日志记录数量

    Counter

    otelcol_exporter_enqueue_failed_metric_points

    用于衡量在将指标数据发送到后端时,由于某些原因导致无法成功发送的指标数据点的数量

    Counter

    otelcol_exporter_enqueue_failed_spans

    用于衡量otelcol exporter在将span发送到后端时失败的次数

    Counter

    otelcol_exporter_send_failed_log_records

    用于衡量日志记录发送失败的数量

    Counter

    otelcol_exporter_sent_log_records

    用于衡量OpenTelemetry Collector(otelcol)发送的日志记录数量

    Counter

    otelcol_process_cpu_seconds

    用于度量进程CPU使用时间的指标,它表示进程在特定时间段内使用的CPU时间,单位为秒

    Counter

    otelcol_process_memory_rss

    是OpenTelemetry中用于监控进程内存使用情况的一个指标。其中,rss代表Resident Set Size,即进程当前占用的物理内存大小

    Gauge

    otelcol_process_runtime_heap_alloc_bytes

    用于监控进程运行时堆内存分配的指标。它表示进程在运行时分配的堆内存的总字节数。

    Gauge

    otelcol_process_runtime_total_alloc_bytes

    用于衡量进程在运行时分配的总字节数

    Counter

    otelcol_process_runtime_total_sys_memory_bytes

    用于衡量进程在运行时使用的系统内存总量,单位为字节。

    Gauge

    otelcol_process_uptime

    指OpenTelemetry收集器进程的运行时间,以秒为单位。

    Counter

    otelcol_receiver_accepted_log_records

    用于衡量OpenTelemetry收集器接收并成功处理的日志记录数量

    Counter

    otelcol_receiver_refused_log_records

    用于衡量接收器(receiver)拒绝接收的日志记录数量

    Counter

support.huaweicloud.com/usermanual-ucs/ucs_01_0366.html