华为云UCS-云原生日志采集插件:log-agent指标说明
log-agent指标说明
log-agent插件的log-operator、fluent-bit和otel-collector组件提供了一系列指标,您可以使用 AOM 或Prometheus来监控这些指标,以便及时了解log-agent插件的运行情况,具体操作可参考使用AOM监控自定义指标或使用Prometheus监控自定义指标。详细的指标如下所述:
- log-operator组件(仅华为云集群)
表7 指标 指标名
说明
类型
log_operator_aksk_latest_update_times
AK/SK最后更新时间
Gauge
log_operator_aksk_update_total
AK/SK更新次数
Counter
log_operator_send_request_total
发送请求数
Counter
log_operator_webhook_listen_status
Webhook监听状态
Gauge
log_operator_http_request_duration_seconds
HTTP请求时延
Histogram
log_operator_http_request_total
HTTP请求数
Counter
log_operator_webhook_request_total
Webhook请求数
Counter
- fluent-bit组件
端口:2020;地址:/api/v1/metrics/prometheus;协议:http
表8 指标 指标名
说明
类型
fluentbit_filter_add_records_total
用于记录在过滤器中添加的记录总数
Counter
fluentbit_filter_drop_records_total
用于记录被过滤掉的日志记录数量
Counter
fluentbit_input_bytes_total
用于衡量Fluent Bit在处理日志数据时输入的总字节数
Counter
fluentbit_input_files_closed_total
用于记录关闭的文件总数
Counter
fluentbit_input_files_opened_total
用于监控Fluent Bit的文件输入插件(input plugin)打开的文件数量
Counter
fluentbit_input_files_rotated_total
用于记录Fluent Bit输入插件已经轮转的文件总数
Counter
fluentbit_input_records_total
用于衡量 Fluent Bit 在输入插件中处理的记录数
Counter
fluentbit_output_dropped_records_total
用于记录输出插件丢弃的记录数量
Counter
fluentbit_output_errors_total
用于监控 Fluent Bit 的输出错误数量
Counter
fluentbit_output_proc_bytes_total
用于监控 Fluent Bit 的输出插件(output plugin)处理的总字节数
Counter
fluentbit_output_proc_records_total
用于监控 Fluent Bit 的输出插件处理的记录数
Counter
fluentbit_output_retried_records_total
用于衡量 Fluent Bit 在输出数据时重试的次数
Counter
fluentbit_output_retries_total
用于衡量 Fluent Bit 在发送数据到输出插件时发生重试的次数
Counter
fluentbit_uptime
Fluent Bit 运行的时间,通常以秒为单位
Counter
fluentbit_build_info
用于显示Fluent Bit的版本和构建信息
Gauge
- otel-collector组件
表9 指标 指标名
说明
类型
otelcol_exporter_enqueue_failed_log_records
用于衡量OpenTelemetry Collector在将日志记录发送到下游系统时,由于某些原因无法成功发送的日志记录数量
Counter
otelcol_exporter_enqueue_failed_metric_points
用于衡量在将指标数据发送到后端时,由于某些原因导致无法成功发送的指标数据点的数量
Counter
otelcol_exporter_enqueue_failed_spans
用于衡量otelcol exporter在将span发送到后端时失败的次数
Counter
otelcol_exporter_send_failed_log_records
用于衡量日志记录发送失败的数量
Counter
otelcol_exporter_sent_log_records
用于衡量OpenTelemetry Collector(otelcol)发送的日志记录数量
Counter
otelcol_process_cpu_seconds
用于度量进程CPU使用时间的指标,它表示进程在特定时间段内使用的CPU时间,单位为秒
Counter
otelcol_process_memory_rss
是OpenTelemetry中用于监控进程内存使用情况的一个指标。其中,rss代表Resident Set Size,即进程当前占用的物理内存大小
Gauge
otelcol_process_runtime_heap_alloc_bytes
用于监控进程运行时堆内存分配的指标。它表示进程在运行时分配的堆内存的总字节数。
Gauge
otelcol_process_runtime_total_alloc_bytes
用于衡量进程在运行时分配的总字节数
Counter
otelcol_process_runtime_total_sys_memory_bytes
用于衡量进程在运行时使用的系统内存总量,单位为字节。
Gauge
otelcol_process_uptime
指OpenTelemetry收集器进程的运行时间,以秒为单位。
Counter
otelcol_receiver_accepted_log_records
用于衡量OpenTelemetry收集器接收并成功处理的日志记录数量
Counter
otelcol_receiver_refused_log_records
用于衡量接收器(receiver)拒绝接收的日志记录数量
Counter