云服务器内容精选

  • 节点监控指标列表 监控的指标ID、指标名称、指标含义以及取值范围参见表2。 监控的测量对象: CSS 集群 - 云服务节点 监控的监控周期(原始指标):1分钟 累计值:从节点启动时开始叠加数值,当节点重启后清零重新累计。 表2 云搜索服务 节点支持的监控指标 指标ID 指标名称 指标含义 取值范围 jvm_heap_usage JVM堆使用率 节点JVM堆内存使用率。 单位:百分比 0-100% cpu_usage CPU利用率 CPU利用率。 单位:百分比 0-100% disk_util 磁盘使用率 统计测量对象的磁盘使用率。 单位:百分比。 0-100% load_average 节点Load值 操作系统中1分钟平均排队任务数。 ≥ 0 open_file_descriptors 已打开的文件描述符数 节点已打开的文件描述符数。 ≥ 0 max_file_descriptors 最大允许的文件描述符数 最大允许的文件描述符数。 ≥ 0 thread_pool_write_queue Write队列中总排队任务数 写入线程池中的排队任务数。 ≥ 0 thread_pool_search_queue Search队列中总排队任务数 搜索线程池中的排队任务数。 ≥ 0 thread_pool_force_merge_queue ForceMerge队列中总排队任务数 强制合并线程池中的排队任务数。 ≥ 0 thread_pool_write_rejected Write队列中总的已拒绝任务数 写入线程池中的已拒绝任务数。 ≥ 0 thread_pool_search_rejected Search队列中总的已拒绝任务数 搜索线程池中的已拒绝任务数。 ≥ 0 thread_pool_force_merge_rejected ForceMerge队列中总的已拒绝任务数 强制合并线程池中的已拒绝任务数。 ≥ 0 thread_pool_write_threads Write线程池总大小 写入线程池的大小。 ≥ 0 thread_pool_search_threads Search线程池总大小 搜索线程池的大小。 ≥ 0 thread_pool_force_merge_threads ForceMerge线程池总大小 强制合并线程池的大小。 ≥ 0 thread_pool_flush_queue Flush队列中总排队任务数 Flush线程池中的排队任务数。 ≥ 0 thread_pool_flush_rejected Flush队列中总的已拒绝任务数 Flush线程池中的已拒绝任务数。 ≥ 0 thread_pool_flush_threads Flush线程池总大小 Flush线程池的大小。 ≥ 0 thread_pool_generic_queue Generic队列中总排队任务数 Generic线程池中的排队任务数。 ≥ 0 thread_pool_generic_rejected Generic队列中总的已拒绝任务数 Generic线程池中的已拒绝任务数。 ≥ 0 thread_pool_generic_threads Generic线程池总大小 Generic线程池的大小。 ≥ 0 thread_pool_management_queue Management队列中总排队任务数 Management线程池中的排队任务数。 ≥ 0 thread_pool_management_rejected Management队列中总的已拒绝任务数 Management线程池中的已拒绝任务数。 ≥ 0 thread_pool_management_threads Management线程池总大小 Management线程池的大小。 ≥ 0 thread_pool_refresh_queue Refresh队列中总排队任务数 Refresh线程池中的排队任务数。 ≥ 0 thread_pool_refresh_rejected Refresh队列中总的已拒绝任务数 Refresh线程池中的已拒绝任务数。 ≥ 0 thread_pool_refresh_threads Refresh线程池总大小 Refresh线程池的大小。 ≥ 0 thread_pool_obs_searcher_queue OBS Searcher队列中总排队任务数 OBS Searcher线程池中的排队任务数。 ≥ 0 thread_pool_obs_searcher_rejected OBS Searcher队列中总的已拒绝任务数 OBS Searcher线程池中的已拒绝任务数。 ≥ 0 thread_pool_obs_searcher_threads OBS Searcher线程池总大小 OBS Searcher线程池的大小。 ≥ 0 thread_pool_obs_queue OBS队列中总排队任务数 OBS线程池中的排队任务数。 ≥ 0 thread_pool_obs_rejected OBS队列中总的已拒绝任务数 OBS线程池中的已拒绝任务数。 ≥ 0 thread_pool_obs_threads OBS线程池总大小 OBS线程池的大小。 ≥ 0 thread_pool_obs_upload_queue OBS Upload队列中总排队任务数 OBS Upload线程池中的排队任务数。 ≥ 0 thread_pool_obs_upload_rejected OBS Upload队列中总的已拒绝任务数 OBS Upload线程池中的已拒绝任务数。 ≥ 0 thread_pool_obs_upload_threads OBS Upload线程池总大小 OBS Upload线程池的大小。 ≥ 0 thread_pool_obs_download_queue OBS Download队列中总排队任务数 OBS Download线程池中的排队任务数。 ≥ 0 thread_pool_obs_download_rejected OBS Download队列中总的已拒绝任务数 OBS Download线程池中的已拒绝任务数。 ≥ 0 thread_pool_obs_download_threads OBS Download线程池总大小 OBS Download线程池的大小。 ≥ 0 free_fs_size 文件系统可用大小 CS S集群的文件系统可用大小。 单位:byte ≥ 0 bytes total_fs_size 文件系统总大小 CSS集群的文件系统总大小。 单位:byte ≥ 0 bytes jvm_old_gc_count JVM老年代总GC次数 “老年代”垃圾回收的运行次数。 ≥ 0 jvm_old_gc_time JVM老年代总GC时间 执行“老年代”垃圾回收所花费的时间。 单位:ms ≥ 0 ms jvm_young_gc_count JVM年轻代总GC次数 “年轻代”垃圾回收的运行次数。 ≥ 0 jvm_young_gc_time JVM年轻代GC时间 执行“年轻代”垃圾回收所花费的时间。 单位:ms ≥ 0 ms mem_free_in_bytes 可用内存空间 节点未使用的内存容量。 单位:byte ≥ 0 bytes mem_free_percent 可用内存比例 节点未使用的内存比例。 ≥ 0 mem_used_in_bytes 已用内存空间 节点已使用的内存容量。 单位:byte ≥ 0 bytes current_opened_http_count 当前已打开HTTP连接数 节点当前打开的HTTP连接数。 ≥ 0 total_opened_http_count 全部打开的HTTP连接数 节点全部打开的HTTP连接数。 ≥ 0 disk_read_requests_rate 磁盘读IOPS CSS集群节点的磁盘每秒读取数据的请求总次数。 ≥ 0 disk_write_requests_rate 磁盘写IOPS CSS集群节点的磁盘每秒写数据的请求总次数。 ≥ 0 disk_read_bytes_rate 磁盘读带宽 CSS集群节点的磁盘每秒读出数据量。 ≥ 0 disk_write_bytes_rate 磁盘写带宽 CSS集群节点的磁盘每秒写入数据量。 ≥ 0 shards_count 分片数量 CSS集群节点的分片数量 ≥ 0
  • 集群监控指标列表 监控的指标ID、指标名称、指标含义以及取值范围参见表1。 监控的测量对象:CSS集群(本文介绍的是Elasticsearch集群和OpenSearch集群的监控指标列表) 监控的监控周期(原始指标):1分钟 累计值:从节点启动时开始叠加数值,当节点重启后清零重新累计。 表1 云搜索 服务支持的监控指标 指标ID 指标名称 指标含义 取值范围 status 集群健康状态 该指标用于统计测量监控对象的状态。 0,1,2,3 0:集群是100%可用的。 1:数据是完整的,部分副本缺失。高可用性在某种程度上弱化,存在风险,请及时关注集群情况。 2:数据缺失,集群使用时将出现异常。 3:没有获取到集群状态。 disk_util 磁盘使用率 该指标用于统计测量对象的磁盘使用率。 单位:百分比 0-100% max_jvm_heap_usage 最大JVM堆使用率 CSS集群中各个节点的JVM堆使用率的最大值。 单位:百分比。 0-100% max_jvm_young_gc_time 最大JVM Young GC耗时 CSS集群中各个节点的JVM Young GC耗时累计值的最大值。 单位:ms ≥ 0 ms max_jvm_young_gc_count 最大JVM Young GC次数 CSS集群中各个节点的JVM Young GC次数累计值的最大值。 ≥ 0 max_jvm_old_gc_time 最大JVM Old GC耗时 CSS集群中各个节点的JVM Old GC耗时累计值的最大值。 单位:ms ≥ 0 ms max_jvm_old_gc_count 最大JVM Old GC次数 CSS集群中各个节点的JVM Old GC次数累计值的最大值。 ≥ 0 total_fs_size 文件系统总大小 CSS集群的文件系统总大小。 单位:byte ≥ 0 bytes free_fs_size 文件系统可用大小 CSS集群的文件系统可用大小。 单位:byte ≥ 0 bytes max_cpu_usage 最大CPU利用率 CSS集群中各个节点的CPU利用率的最大值。 单位:百分比 0-100% max_cpu_time_of_jvm_process 最大JVM进程使用的CPU时间 CSS集群中各个节点JVM进程使用CPU的时间累计值的最大值。 单位:ms ≥ 0 ms max_virtual_memory_size_of_jvm_process 最大JVM进程使用的虚拟内存大小 CSS集群中各个节点JVM进程可使用的虚拟内存大小的最大值。 单位:byte ≥ 0 bytes max_current_opened_http_count 最大当前打开的HTTP连接数 CSS集群中各个节点打开且尚未关闭的HTTP连接数的最大值。 ≥ 0 max_total_opened_http_count 最大全部打开的HTTP连接数 CSS集群中各个节点打开过的HTTP连接数累计值的最大值。 ≥ 0 indices_count 索引数量 CSS集群的索引数量。 ≥ 0 total_shards_count 分片数量 CSS集群的分片数量。 ≥ 0 primary_shards_count 主分片数量 CSS集群的主分片数量。 ≥ 0 docs_count 文档数量 CSS集群的文档数量。 ≥ 0 docs_deleted_count 被删除的文档数量 CSS集群的被删除的文档数量。 ≥ 0 nodes_count 节点数量 CSS集群的节点数量。 ≥ 0 data_nodes_count 数据节点数量 CSS集群的数据节点数量。 ≥ 0 coordinating_nodes_count 协调节点数量 CSS集群的协调节点数量。 ≥ 0 master_nodes_count Master节点数量 CSS集群的Master节点数量。 ≥ 0 ingest_nodes_count Client节点数量 CSS集群的Client节点数量。 ≥ 0 max_load_average 最大节点Load值 CSS集群中各个节点在操作系统中1分钟平均排队任务数的最大值。 ≥ 0 avg_cpu_usage 平均CPU使用率 CSS集群中各节点CPU利用率的平均值。 单位:百分比 0-100% avg_load_average 平均节点Load值 CSS集群中各节点在操作系统中1分钟平均排队任务数的平均值。 ≥ 0 avg_jvm_heap_usage 平均JVM堆使用率 CSS集群中各节点JVM堆内存使用率的平均值。 单位:百分比 0-100% max_open_file_descriptors 已打开的最大文件描述符数 CSS集群中各个节点已打开的文件描述符数的最大值。 ≥ 0 avg_open_file_descriptors 已打开的平均文件描述符数 CSS集群中各节点已打开的文件描述符数的平均值。 ≥ 0 sum_max_file_descriptors 最大允许的文件描述符数 CSS集群中各节点最大允许的文件描述符数之和。 ≥ 0 sum_open_file_descriptors 已打开的文件描述符数 CSS集群中各节点已打开的文件描述符数之和。 ≥ 0 sum_thread_pool_write_queue Write队列中总排队任务数 写入线程池中的排队任务数。 ≥ 0 sum_thread_pool_search_queue Search队列中总排队任务数 CSS集群中各节点在搜索线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_force_merge_queue ForceMerge队列中总排队任务数 CSS集群中各节点在强制合并线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_write_rejected Write队列中总的已拒绝任务数 CSS集群中各节点在写入线程池中的已拒绝任务数之和。 ≥ 0 sum_thread_pool_search_rejected Search队列中总的已拒绝任务数 CSS集群中各节点在搜索线程池中的已拒绝任务数之和。 ≥ 0 sum_thread_pool_force_merge_rejected Forcemerge队列中总的已拒绝任务数 CSS集群中各节点在强制合并线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_search_queue Search队列中最大排队任务数 CSS集群中各个节点在搜索线程池中的排队任务数的最大值。 ≥ 0 max_thread_pool_force_merge_queue ForceMerge队列中最大排队任务数 CSS集群中各个节点在强制合并线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_write_threads Write线程池总大小 CSS集群中各节点写入线程池的大小之和。 ≥ 0 sum_thread_pool_search_threads Search线程池总大小 CSS集群中各节点搜索线程池的大小之和。 ≥ 0 sum_thread_pool_force_merge_threads ForceMerge线程池总大小 CSS集群中各节点强制合并线程池的大小之和。 ≥ 0 avg_thread_pool_write_queue Write队列中平均排队任务数 CSS集群中各节点在写入线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_search_queue Search队列中平均排队任务数 CSS集群中各节点在搜索线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_force_merge_queue ForceMerge队列中平均排队任务数 CSS集群中各节点在强制合并线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_search_threads Search线程池平均大小 CSS集群中各节点搜索线程池的大小的平均值。 ≥ 0 avg_thread_pool_write_threads Write线程池平均大小 CSS集群中各节点写入线程池的大小的平均值。 ≥ 0 avg_thread_pool_force_merge_threads ForceMerge线程池平均大小 CSS集群中各节点强制合并线程池的大小的平均值。 ≥ 0 avg_thread_pool_write_rejected Write队列中平均已拒绝任务数 CSS集群中各节点写入线程池中的已拒绝任务数的平均值。 ≥ 0 sum_thread_pool_flush_queue Flush队列中总排队任务数 CSS集群中各个节点在Flush线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_flush_rejected Flush队列中总的已拒绝任务数 CSS集群中各节点在Flush线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_flush_queue Flush队列中最大排队任务数 CSS集群中各个节点在Flush线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_flush_threads Flush线程池总大小 CSS集群中各节点Flush线程池的大小之和。 ≥ 0 avg_thread_pool_flush_queue Flush队列中平均排队任务数 CSS集群中各节点在Flush线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_flush_threads Flush线程池平均大小 CSS集群中各节点在Flush线程池中的排队任务数的平均值。 ≥ 0 sum_thread_pool_generic_queue Generic队列中总排队任务数 CSS集群中各个节点在Generic线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_generic_rejecte Generic队列中总的已拒绝任务数 CSS集群中各节点在Generic线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_generic_queue Generic队列中最大排队任务数 CSS集群中各个节点在Generic线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_generic_threads Generic线程池总大小 CSS集群中各节点Generic线程池的大小之和。 ≥ 0 avg_thread_pool_generic_queue Generic队列中平均排队任务数 CSS集群中各节点在Generic线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_generic_threads Generic线程池平均大小 CSS集群中各节点在Generic线程池中的排队任务数的平均值。 ≥ 0 sum_thread_pool_management_queue Management队列中总排队任务数 CSS集群中各个节点在Management线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_management_rejected Management队列中总的已拒绝任务数 CSS集群中各节点在Management线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_management_queue Management队列中最大排队任务数 CSS集群中各个节点在Management线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_management_threads Management线程池总大小 CSS集群中各节点Management线程池的大小之和。 ≥ 0 avg_thread_pool_management_queue Management队列中平均排队任务数 CSS集群中各节点在Management线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_management_threads Management线程池平均大小 CSS集群中各节点在Management线程池中的排队任务数的平均值。 ≥ 0 sum_thread_pool_refresh_queue Refresh队列中总排队任务数 CSS集群中各个节点在Refresh线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_refresh_rejected Refresh队列中总的已拒绝任务数 CSS集群中各节点在Refresh线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_refresh_queue Refresh队列中最大排队任务数 CSS集群中各个节点在Refresh线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_refresh_threads Refresh线程池总大小 CSS集群中各节点Refresh线程池的大小之和。 ≥ 0 avg_thread_pool_refresh_queue Refresh队列中平均排队任务数 CSS集群中各节点在Refresh线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_refresh_threads Refresh线程池平均大小 CSS集群中各节点在Refresh线程池中的排队任务数的平均值。 ≥ 0 sum_thread_pool_obs_searcher_queue OBS Searcher队列中总排队任务数 CSS集群中各个节点在OBS Searcher线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_obs_searcher_rejected OBS Searcher队列中总的已拒绝任务数 CSS集群中各节点在OBS Searcher线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_obs_searcher_queue OBS Searcher队列中最大排队任务数 CSS集群中各个节点在OBS Searcher线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_obs_searcher_threads OBS Searcher线程池总大小 CSS集群中各节点OBS Searcher线程池的大小之和。 ≥ 0 avg_thread_pool_obs_searcher_queue OBS Searcher队列中平均排队任务数 CSS集群中各节点在OBS Searcher线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_obs_searcher_threads OBS Searcher线程池平均大小 CSS集群中各节点在OBS Searcher线程池中的排队任务数的平均值。 ≥ 0 sum_thread_pool_obs_queue OBS队列中总排队任务数 CSS集群中各个节点在OBS线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_obs_rejected OBS队列中总的已拒绝任务数 CSS集群中各节点在OBS线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_obs_queue OBS队列中最大排队任务数 CSS集群中各个节点在OBS线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_obs_threads OBS线程池总大小 CSS集群中各节点OBS线程池的大小之和。 ≥ 0 avg_thread_pool_obs_queue OBS队列中平均排队任务数 CSS集群中各节点在OBS线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_obs_threads OBS线程池平均大小 CSS集群中各节点在OBS线程池中的排队任务数的平均值。 ≥ 0 sum_thread_pool_obs_upload_queue OBS Upload队列中总排队任务数 CSS集群中各个节点在OBS Upload线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_obs_upload_rejected OBS Upload队列中总的已拒绝任务数 CSS集群中各节点在OBS Upload线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_obs_upload_queue OBS Upload队列中最大排队任务数 CSS集群中各个节点在OBS Upload线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_obs_upload_threads OBS Upload线程池总大小 CSS集群中各节点OBS Upload线程池的大小之和。 ≥ 0 avg_thread_pool_obs_upload_queue OBS Upload队列中平均排队任务数 CSS集群中各节点在OBS Upload线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_obs_upload_threads OBS Upload线程池平均大小 CSS集群中各节点在OBS Upload线程池中的排队任务数的平均值。 ≥ 0 sum_thread_pool_obs_download_queue OBS Download队列中总排队任务数 CSS集群中各个节点在OBS Download线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_obs_download_rejected OBS Download队列中总的已拒绝任务数 CSS集群中各节点在OBS Download线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_obs_download_queue OBS Download队列中最大排队任务数 CSS集群中各个节点在OBS Download线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_obs_download_threads OBS Download线程池总大小 CSS集群中各节点OBS Download线程池的大小之和。 ≥ 0 avg_thread_pool_obs_download_queue OBS Download队列中平均排队任务数 CSS集群中各节点在OBS Download线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_obs_download_threads OBS Download线程池平均大小 CSS集群中各节点在OBS Download线程池中的排队任务数的平均值。 ≥ 0 min_free_fs_size 最小可用存储空间 CSS集群中各个节点可用存储空间的最小值。 单位:byte ≥ 0 bytes avg_jvm_old_gc_count JVM老年代平均GC次数 CSS集群中各个节点“老年代”垃圾回收的运行次数的累计值的平均值。 ≥ 0 avg_jvm_old_gc_time JVM老年代平均GC时间 CSS集群中各个节点执行“老年代”垃圾回收所花费的时间累计值的平均值。 单位:ms ≥ 0 ms avg_jvm_young_gc_count JVM年轻代平均GC次数 CSS集群中各个节点“年轻代”垃圾回收的运行次数的累计值的平均值。 ≥ 0 avg_jvm_young_gc_time JVM年轻代平均GC时间 CSS集群中各个节点执行“年轻代”垃圾回收所花费的时间累计值的平均值。 单位:ms ≥ 0 ms avg_max_file_descriptors 最大允许的文件描述符数-平均值 CSS集群中各节点最大允许的文件描述符数的平均值。 ≥ 0 avg_mem_free_in_bytes 平均可用内存空间 CSS集群中各节点未使用的内存容量的平均值。 单位:byte ≥ 0 bytes avg_mem_free_percent 平均可用内存比例 CSS集群中各节点未使用的内存比例的平均值。 单位:百分比 0-100% avg_mem_used_in_bytes 平均已用内存空间 CSS集群中各节点已使用的内存容量的平均值。 单位:byte ≥ 0 bytes avg_mem_used_percent 平均已用内存比例 CSS集群中各节点已使用的内存比例的平均值。 单位:百分比 0-100% max_mem_free_in_bytes 最大可用内存空间 CSS集群中各个节点未使用的内存容量的最大值。 单位:byte ≥ 0 bytes max_mem_free_percent 最大可用内存比例 CSS集群中各个节点未使用的内存比例的最大值。 单位:百分比 0-100% max_mem_used_in_bytes 最大已用内存空间 CSS集群中各个节点已使用的内存容量的最大值。 单位:byte ≥ 0 bytes max_mem_used_percent 最大已用内存比例 CSS集群中各个节点已使用的内存比例的最大值。 单位:百分比 0-100% sum_jvm_old_gc_count JVM老年代总GC次数 CSS集群中各个节点“老年代”垃圾回收的运行次数的累计值之和。 ≥ 0 sum_jvm_old_gc_time JVM老年代总GC时间 CSS集群中各个节点执行“老年代”垃圾回收所花费的时间累计值之和。 单位:ms ≥ 0ms sum_jvm_young_gc_count JVM年轻代总GC次数 CSS集群中各个节点“年轻代”垃圾回收的运行次数的累计值之和。 ≥ 0 sum_jvm_young_gc_time JVM年轻代总GC时间 CSS集群中各个节点执行“年轻代”垃圾回收所花费的时间累计值之和。 单位:ms ≥ 0 ms sum_current_opened_http_count 当前已打开HTTP连接数 CSS集群中各个节点打开且尚未关闭的HTTP连接数之和。 ≥ 0 sum_total_opened_http_count 历史已打开HTTP连接数 CSS集群中各个节点打开过的HTTP连接数累计值之和。 ≥ 0 IndexingLatency 平均索引延迟 分片完成索引操作所需的平均时间。 单位:ms ≥ 0 ms IndexingRate 平均索引速率 入库TPS,集群每秒平均索引操作数。 ≥ 0 SearchLatency 平均查询延迟 分片完成搜索操作所需的平均时间。 单位:ms。 ≥ 0 ms SearchRate 平均查询速率 查询QPS,集群每秒平均查询操作数。 ≥ 0 task_max_running_time 最大Task运行时长 该指标为集群运行的所有task中,运行时长最长的task的耗时 ≥ 0 ms number_of_pending_tasks Pending Task排队任务数 CSS集群中待Master处理的task的排队任务数。 ≥ 0 sum_disk_read_requests_rate 磁盘读总IOPS CSS集群所有节点的磁盘每秒读取数据的请求总次数。 ≥ 0 sum_disk_write_requests_rate 磁盘写总IOPS CSS集群所有节点的磁盘每秒写数据的请求总次数。 ≥ 0 sum_disk_read_bytes_rate 磁盘读总带宽 CSS集群所有节点的磁盘每秒读出数据量。 ≥ 0 sum_disk_write_bytes_rate 磁盘写总带宽 CSS集群所有节点的磁盘每秒写入数据量。 ≥ 0
  • 节点监控指标列表 监控的指标ID、指标名称、指标含义以及取值范围参见表2。 监控的测量对象:CSS集群 - 云服务节点 监控的监控周期(原始指标):1分钟 累计值:从节点启动时开始叠加数值,当节点重启后清零重新累计。 表2 云搜索服务节点支持的监控指标 指标ID 指标名称 指标含义 取值范围 jvm_heap_usage JVM堆使用率 节点JVM堆内存使用率。 单位:百分比 0-100% cpu_usage CPU利用率 CPU利用率。 单位:百分比 0-100% disk_util 磁盘使用率 统计测量对象的磁盘使用率。 单位:百分比。 0-100% load_average 节点Load值 操作系统中1分钟平均排队任务数。 ≥ 0 open_file_descriptors 已打开的文件描述符数 节点已打开的文件描述符数。 ≥ 0 max_file_descriptors 最大允许的文件描述符数 最大允许的文件描述符数。 ≥ 0 thread_pool_write_queue Write队列中总排队任务数 写入线程池中的排队任务数。 ≥ 0 thread_pool_search_queue Search队列中总排队任务数 搜索线程池中的排队任务数。 ≥ 0 thread_pool_force_merge_queue ForceMerge队列中总排队任务数 强制合并线程池中的排队任务数。 ≥ 0 thread_pool_write_rejected Write队列中总的已拒绝任务数 写入线程池中的已拒绝任务数。 ≥ 0 thread_pool_search_rejected Search队列中总的已拒绝任务数 搜索线程池中的已拒绝任务数。 ≥ 0 thread_pool_force_merge_rejected ForceMerge队列中总的已拒绝任务数 强制合并线程池中的已拒绝任务数。 ≥ 0 thread_pool_write_threads Write线程池总大小 写入线程池的大小。 ≥ 0 thread_pool_search_threads Search线程池总大小 搜索线程池的大小。 ≥ 0 thread_pool_force_merge_threads ForceMerge线程池总大小 强制合并线程池的大小。 ≥ 0 thread_pool_flush_queue Flush队列中总排队任务数 Flush线程池中的排队任务数。 ≥ 0 thread_pool_flush_rejected Flush队列中总的已拒绝任务数 Flush线程池中的已拒绝任务数。 ≥ 0 thread_pool_flush_threads Flush线程池总大小 Flush线程池的大小。 ≥ 0 thread_pool_generic_queue Generic队列中总排队任务数 Generic线程池中的排队任务数。 ≥ 0 thread_pool_generic_rejected Generic队列中总的已拒绝任务数 Generic线程池中的已拒绝任务数。 ≥ 0 thread_pool_generic_threads Generic线程池总大小 Generic线程池的大小。 ≥ 0 thread_pool_management_queue Management队列中总排队任务数 Management线程池中的排队任务数。 ≥ 0 thread_pool_management_rejected Management队列中总的已拒绝任务数 Management线程池中的已拒绝任务数。 ≥ 0 thread_pool_management_threads Management线程池总大小 Management线程池的大小。 ≥ 0 thread_pool_refresh_queue Refresh队列中总排队任务数 Refresh线程池中的排队任务数。 ≥ 0 thread_pool_refresh_rejected Refresh队列中总的已拒绝任务数 Refresh线程池中的已拒绝任务数。 ≥ 0 thread_pool_refresh_threads Refresh线程池总大小 Refresh线程池的大小。 ≥ 0 thread_pool_obs_searcher_queue OBS Searcher队列中总排队任务数 OBS Searcher线程池中的排队任务数。 ≥ 0 thread_pool_obs_searcher_rejected OBS Searcher队列中总的已拒绝任务数 OBS Searcher线程池中的已拒绝任务数。 ≥ 0 thread_pool_obs_searcher_threads OBS Searcher线程池总大小 OBS Searcher线程池的大小。 ≥ 0 thread_pool_obs_queue OBS队列中总排队任务数 OBS线程池中的排队任务数。 ≥ 0 thread_pool_obs_rejected OBS队列中总的已拒绝任务数 OBS线程池中的已拒绝任务数。 ≥ 0 thread_pool_obs_threads OBS线程池总大小 OBS线程池的大小。 ≥ 0 thread_pool_obs_upload_queue OBS Upload队列中总排队任务数 OBS Upload线程池中的排队任务数。 ≥ 0 thread_pool_obs_upload_rejected OBS Upload队列中总的已拒绝任务数 OBS Upload线程池中的已拒绝任务数。 ≥ 0 thread_pool_obs_upload_threads OBS Upload线程池总大小 OBS Upload线程池的大小。 ≥ 0 thread_pool_obs_download_queue OBS Download队列中总排队任务数 OBS Download线程池中的排队任务数。 ≥ 0 thread_pool_obs_download_rejected OBS Download队列中总的已拒绝任务数 OBS Download线程池中的已拒绝任务数。 ≥ 0 thread_pool_obs_download_threads OBS Download线程池总大小 OBS Download线程池的大小。 ≥ 0 free_fs_size 文件系统可用大小 CSS集群的文件系统可用大小。 单位:byte ≥ 0 bytes total_fs_size 文件系统总大小 CSS集群的文件系统总大小。 单位:byte ≥ 0 bytes jvm_old_gc_count JVM老年代总GC次数 “老年代”垃圾回收的运行次数。 ≥ 0 jvm_old_gc_time JVM老年代总GC时间 执行“老年代”垃圾回收所花费的时间。 单位:ms ≥ 0 ms jvm_young_gc_count JVM年轻代总GC次数 “年轻代”垃圾回收的运行次数。 ≥ 0 jvm_young_gc_time JVM年轻代GC时间 执行“年轻代”垃圾回收所花费的时间。 单位:ms ≥ 0 ms mem_free_in_bytes 可用内存空间 节点未使用的内存容量。 单位:byte ≥ 0 bytes mem_free_percent 可用内存比例 节点未使用的内存比例。 ≥ 0 mem_used_in_bytes 已用内存空间 节点已使用的内存容量。 单位:byte ≥ 0 bytes current_opened_http_count 当前已打开HTTP连接数 节点当前打开的HTTP连接数。 ≥ 0 total_opened_http_count 全部打开的HTTP连接数 节点全部打开的HTTP连接数。 ≥ 0 disk_read_requests_rate 磁盘读IOPS CSS集群节点的磁盘每秒读取数据的请求总次数。 ≥ 0 disk_write_requests_rate 磁盘写IOPS CSS集群节点的磁盘每秒写数据的请求总次数。 ≥ 0 disk_read_bytes_rate 磁盘读带宽 CSS集群节点的磁盘每秒读出数据量。 ≥ 0 disk_write_bytes_rate 磁盘写带宽 CSS集群节点的磁盘每秒写入数据量。 ≥ 0 shards_count 分片数量 CSS集群节点的分片数量 ≥ 0
  • 集群监控指标列表 监控的指标ID、指标名称、指标含义以及取值范围参见表1。 监控的测量对象:CSS集群(本文介绍的是Elasticsearch集群和OpenSearch集群的监控指标列表) 监控的监控周期(原始指标):1分钟 累计值:从节点启动时开始叠加数值,当节点重启后清零重新累计。 表1 云搜索服务支持的监控指标 指标ID 指标名称 指标含义 取值范围 status 集群健康状态 该指标用于统计测量监控对象的状态。 0,1,2,3 0:集群是100%可用的。 1:数据是完整的,部分副本缺失。高可用性在某种程度上弱化,存在风险,请及时关注集群情况。 2:数据缺失,集群使用时将出现异常。 3:没有获取到集群状态。 disk_util 磁盘使用率 该指标用于统计测量对象的磁盘使用率。 单位:百分比 0-100% max_jvm_heap_usage 最大JVM堆使用率 CSS集群中各个节点的JVM堆使用率的最大值。 单位:百分比。 0-100% max_jvm_young_gc_time 最大JVM Young GC耗时 CSS集群中各个节点的JVM Young GC耗时累计值的最大值。 单位:ms ≥ 0 ms max_jvm_young_gc_count 最大JVM Young GC次数 CSS集群中各个节点的JVM Young GC次数累计值的最大值。 ≥ 0 max_jvm_old_gc_time 最大JVM Old GC耗时 CSS集群中各个节点的JVM Old GC耗时累计值的最大值。 单位:ms ≥ 0 ms max_jvm_old_gc_count 最大JVM Old GC次数 CSS集群中各个节点的JVM Old GC次数累计值的最大值。 ≥ 0 total_fs_size 文件系统总大小 CSS集群的文件系统总大小。 单位:byte ≥ 0 bytes free_fs_size 文件系统可用大小 CSS集群的文件系统可用大小。 单位:byte ≥ 0 bytes max_cpu_usage 最大CPU利用率 CSS集群中各个节点的CPU利用率的最大值。 单位:百分比 0-100% max_cpu_time_of_jvm_process 最大JVM进程使用的CPU时间 CSS集群中各个节点JVM进程使用CPU的时间累计值的最大值。 单位:ms ≥ 0 ms max_virtual_memory_size_of_jvm_process 最大JVM进程使用的虚拟内存大小 CSS集群中各个节点JVM进程可使用的虚拟内存大小的最大值。 单位:byte ≥ 0 bytes max_current_opened_http_count 最大当前打开的HTTP连接数 CSS集群中各个节点打开且尚未关闭的HTTP连接数的最大值。 ≥ 0 max_total_opened_http_count 最大全部打开的HTTP连接数 CSS集群中各个节点打开过的HTTP连接数累计值的最大值。 ≥ 0 indices_count 索引数量 CSS集群的索引数量。 ≥ 0 total_shards_count 分片数量 CSS集群的分片数量。 ≥ 0 primary_shards_count 主分片数量 CSS集群的主分片数量。 ≥ 0 docs_count 文档数量 CSS集群的文档数量。 ≥ 0 docs_deleted_count 被删除的文档数量 CSS集群的被删除的文档数量。 ≥ 0 nodes_count 节点数量 CSS集群的节点数量。 ≥ 0 data_nodes_count 数据节点数量 CSS集群的数据节点数量。 ≥ 0 coordinating_nodes_count 协调节点数量 CSS集群的协调节点数量。 ≥ 0 master_nodes_count Master节点数量 CSS集群的Master节点数量。 ≥ 0 ingest_nodes_count Client节点数量 CSS集群的Client节点数量。 ≥ 0 max_load_average 最大节点Load值 CSS集群中各个节点在操作系统中1分钟平均排队任务数的最大值。 ≥ 0 avg_cpu_usage 平均CPU使用率 CSS集群中各节点CPU利用率的平均值。 单位:百分比 0-100% avg_load_average 平均节点Load值 CSS集群中各节点在操作系统中1分钟平均排队任务数的平均值。 ≥ 0 avg_jvm_heap_usage 平均JVM堆使用率 CSS集群中各节点JVM堆内存使用率的平均值。 单位:百分比 0-100% max_open_file_descriptors 已打开的最大文件描述符数 CSS集群中各个节点已打开的文件描述符数的最大值。 ≥ 0 avg_open_file_descriptors 已打开的平均文件描述符数 CSS集群中各节点已打开的文件描述符数的平均值。 ≥ 0 sum_max_file_descriptors 最大允许的文件描述符数 CSS集群中各节点最大允许的文件描述符数之和。 ≥ 0 sum_open_file_descriptors 已打开的文件描述符数 CSS集群中各节点已打开的文件描述符数之和。 ≥ 0 sum_thread_pool_write_queue Write队列中总排队任务数 写入线程池中的排队任务数。 ≥ 0 sum_thread_pool_search_queue Search队列中总排队任务数 CSS集群中各节点在搜索线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_force_merge_queue ForceMerge队列中总排队任务数 CSS集群中各节点在强制合并线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_write_rejected Write队列中总的已拒绝任务数 CSS集群中各节点在写入线程池中的已拒绝任务数之和。 ≥ 0 sum_thread_pool_search_rejected Search队列中总的已拒绝任务数 CSS集群中各节点在搜索线程池中的已拒绝任务数之和。 ≥ 0 sum_thread_pool_force_merge_rejected Forcemerge队列中总的已拒绝任务数 CSS集群中各节点在强制合并线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_search_queue Search队列中最大排队任务数 CSS集群中各个节点在搜索线程池中的排队任务数的最大值。 ≥ 0 max_thread_pool_force_merge_queue ForceMerge队列中最大排队任务数 CSS集群中各个节点在强制合并线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_write_threads Write线程池总大小 CSS集群中各节点写入线程池的大小之和。 ≥ 0 sum_thread_pool_search_threads Search线程池总大小 CSS集群中各节点搜索线程池的大小之和。 ≥ 0 sum_thread_pool_force_merge_threads ForceMerge线程池总大小 CSS集群中各节点强制合并线程池的大小之和。 ≥ 0 avg_thread_pool_write_queue Write队列中平均排队任务数 CSS集群中各节点在写入线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_search_queue Search队列中平均排队任务数 CSS集群中各节点在搜索线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_force_merge_queue ForceMerge队列中平均排队任务数 CSS集群中各节点在强制合并线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_search_threads Search线程池平均大小 CSS集群中各节点搜索线程池的大小的平均值。 ≥ 0 avg_thread_pool_write_threads Write线程池平均大小 CSS集群中各节点写入线程池的大小的平均值。 ≥ 0 avg_thread_pool_force_merge_threads ForceMerge线程池平均大小 CSS集群中各节点强制合并线程池的大小的平均值。 ≥ 0 avg_thread_pool_write_rejected Write队列中平均已拒绝任务数 CSS集群中各节点写入线程池中的已拒绝任务数的平均值。 ≥ 0 sum_thread_pool_flush_queue Flush队列中总排队任务数 CSS集群中各个节点在Flush线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_flush_rejected Flush队列中总的已拒绝任务数 CSS集群中各节点在Flush线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_flush_queue Flush队列中最大排队任务数 CSS集群中各个节点在Flush线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_flush_threads Flush线程池总大小 CSS集群中各节点Flush线程池的大小之和。 ≥ 0 avg_thread_pool_flush_queue Flush队列中平均排队任务数 CSS集群中各节点在Flush线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_flush_threads Flush线程池平均大小 CSS集群中各节点在Flush线程池中的排队任务数的平均值。 ≥ 0 sum_thread_pool_generic_queue Generic队列中总排队任务数 CSS集群中各个节点在Generic线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_generic_rejecte Generic队列中总的已拒绝任务数 CSS集群中各节点在Generic线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_generic_queue Generic队列中最大排队任务数 CSS集群中各个节点在Generic线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_generic_threads Generic线程池总大小 CSS集群中各节点Generic线程池的大小之和。 ≥ 0 avg_thread_pool_generic_queue Generic队列中平均排队任务数 CSS集群中各节点在Generic线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_generic_threads Generic线程池平均大小 CSS集群中各节点在Generic线程池中的排队任务数的平均值。 ≥ 0 sum_thread_pool_management_queue Management队列中总排队任务数 CSS集群中各个节点在Management线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_management_rejected Management队列中总的已拒绝任务数 CSS集群中各节点在Management线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_management_queue Management队列中最大排队任务数 CSS集群中各个节点在Management线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_management_threads Management线程池总大小 CSS集群中各节点Management线程池的大小之和。 ≥ 0 avg_thread_pool_management_queue Management队列中平均排队任务数 CSS集群中各节点在Management线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_management_threads Management线程池平均大小 CSS集群中各节点在Management线程池中的排队任务数的平均值。 ≥ 0 sum_thread_pool_refresh_queue Refresh队列中总排队任务数 CSS集群中各个节点在Refresh线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_refresh_rejected Refresh队列中总的已拒绝任务数 CSS集群中各节点在Refresh线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_refresh_queue Refresh队列中最大排队任务数 CSS集群中各个节点在Refresh线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_refresh_threads Refresh线程池总大小 CSS集群中各节点Refresh线程池的大小之和。 ≥ 0 avg_thread_pool_refresh_queue Refresh队列中平均排队任务数 CSS集群中各节点在Refresh线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_refresh_threads Refresh线程池平均大小 CSS集群中各节点在Refresh线程池中的排队任务数的平均值。 ≥ 0 sum_thread_pool_obs_searcher_queue OBS Searcher队列中总排队任务数 CSS集群中各个节点在OBS Searcher线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_obs_searcher_rejected OBS Searcher队列中总的已拒绝任务数 CSS集群中各节点在OBS Searcher线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_obs_searcher_queue OBS Searcher队列中最大排队任务数 CSS集群中各个节点在OBS Searcher线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_obs_searcher_threads OBS Searcher线程池总大小 CSS集群中各节点OBS Searcher线程池的大小之和。 ≥ 0 avg_thread_pool_obs_searcher_queue OBS Searcher队列中平均排队任务数 CSS集群中各节点在OBS Searcher线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_obs_searcher_threads OBS Searcher线程池平均大小 CSS集群中各节点在OBS Searcher线程池中的排队任务数的平均值。 ≥ 0 sum_thread_pool_obs_queue OBS队列中总排队任务数 CSS集群中各个节点在OBS线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_obs_rejected OBS队列中总的已拒绝任务数 CSS集群中各节点在OBS线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_obs_queue OBS队列中最大排队任务数 CSS集群中各个节点在OBS线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_obs_threads OBS线程池总大小 CSS集群中各节点OBS线程池的大小之和。 ≥ 0 avg_thread_pool_obs_queue OBS队列中平均排队任务数 CSS集群中各节点在OBS线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_obs_threads OBS线程池平均大小 CSS集群中各节点在OBS线程池中的排队任务数的平均值。 ≥ 0 sum_thread_pool_obs_upload_queue OBS Upload队列中总排队任务数 CSS集群中各个节点在OBS Upload线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_obs_upload_rejected OBS Upload队列中总的已拒绝任务数 CSS集群中各节点在OBS Upload线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_obs_upload_queue OBS Upload队列中最大排队任务数 CSS集群中各个节点在OBS Upload线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_obs_upload_threads OBS Upload线程池总大小 CSS集群中各节点OBS Upload线程池的大小之和。 ≥ 0 avg_thread_pool_obs_upload_queue OBS Upload队列中平均排队任务数 CSS集群中各节点在OBS Upload线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_obs_upload_threads OBS Upload线程池平均大小 CSS集群中各节点在OBS Upload线程池中的排队任务数的平均值。 ≥ 0 sum_thread_pool_obs_download_queue OBS Download队列中总排队任务数 CSS集群中各个节点在OBS Download线程池中的排队任务数之和。 ≥ 0 sum_thread_pool_obs_download_rejected OBS Download队列中总的已拒绝任务数 CSS集群中各节点在OBS Download线程池中的已拒绝任务数之和。 ≥ 0 max_thread_pool_obs_download_queue OBS Download队列中最大排队任务数 CSS集群中各个节点在OBS Download线程池中的排队任务数的最大值。 ≥ 0 sum_thread_pool_obs_download_threads OBS Download线程池总大小 CSS集群中各节点OBS Download线程池的大小之和。 ≥ 0 avg_thread_pool_obs_download_queue OBS Download队列中平均排队任务数 CSS集群中各节点在OBS Download线程池中的排队任务数的平均值。 ≥ 0 avg_thread_pool_obs_download_threads OBS Download线程池平均大小 CSS集群中各节点在OBS Download线程池中的排队任务数的平均值。 ≥ 0 min_free_fs_size 最小可用存储空间 CSS集群中各个节点可用存储空间的最小值。 单位:byte ≥ 0 bytes avg_jvm_old_gc_count JVM老年代平均GC次数 CSS集群中各个节点“老年代”垃圾回收的运行次数的累计值的平均值。 ≥ 0 avg_jvm_old_gc_time JVM老年代平均GC时间 CSS集群中各个节点执行“老年代”垃圾回收所花费的时间累计值的平均值。 单位:ms ≥ 0 ms avg_jvm_young_gc_count JVM年轻代平均GC次数 CSS集群中各个节点“年轻代”垃圾回收的运行次数的累计值的平均值。 ≥ 0 avg_jvm_young_gc_time JVM年轻代平均GC时间 CSS集群中各个节点执行“年轻代”垃圾回收所花费的时间累计值的平均值。 单位:ms ≥ 0 ms avg_max_file_descriptors 最大允许的文件描述符数-平均值 CSS集群中各节点最大允许的文件描述符数的平均值。 ≥ 0 avg_mem_free_in_bytes 平均可用内存空间 CSS集群中各节点未使用的内存容量的平均值。 单位:byte ≥ 0 bytes avg_mem_free_percent 平均可用内存比例 CSS集群中各节点未使用的内存比例的平均值。 单位:百分比 0-100% avg_mem_used_in_bytes 平均已用内存空间 CSS集群中各节点已使用的内存容量的平均值。 单位:byte ≥ 0 bytes avg_mem_used_percent 平均已用内存比例 CSS集群中各节点已使用的内存比例的平均值。 单位:百分比 0-100% max_mem_free_in_bytes 最大可用内存空间 CSS集群中各个节点未使用的内存容量的最大值。 单位:byte ≥ 0 bytes max_mem_free_percent 最大可用内存比例 CSS集群中各个节点未使用的内存比例的最大值。 单位:百分比 0-100% max_mem_used_in_bytes 最大已用内存空间 CSS集群中各个节点已使用的内存容量的最大值。 单位:byte ≥ 0 bytes max_mem_used_percent 最大已用内存比例 CSS集群中各个节点已使用的内存比例的最大值。 单位:百分比 0-100% sum_jvm_old_gc_count JVM老年代总GC次数 CSS集群中各个节点“老年代”垃圾回收的运行次数的累计值之和。 ≥ 0 sum_jvm_old_gc_time JVM老年代总GC时间 CSS集群中各个节点执行“老年代”垃圾回收所花费的时间累计值之和。 单位:ms ≥ 0ms sum_jvm_young_gc_count JVM年轻代总GC次数 CSS集群中各个节点“年轻代”垃圾回收的运行次数的累计值之和。 ≥ 0 sum_jvm_young_gc_time JVM年轻代总GC时间 CSS集群中各个节点执行“年轻代”垃圾回收所花费的时间累计值之和。 单位:ms ≥ 0 ms sum_current_opened_http_count 当前已打开HTTP连接数 CSS集群中各个节点打开且尚未关闭的HTTP连接数之和。 ≥ 0 sum_total_opened_http_count 历史已打开HTTP连接数 CSS集群中各个节点打开过的HTTP连接数累计值之和。 ≥ 0 IndexingLatency 平均索引延迟 分片完成索引操作所需的平均时间。 单位:ms ≥ 0 ms IndexingRate 平均索引速率 入库TPS,集群每秒平均索引操作数。 ≥ 0 SearchLatency 平均查询延迟 分片完成搜索操作所需的平均时间。 单位:ms。 ≥ 0 ms SearchRate 平均查询速率 查询QPS,集群每秒平均查询操作数。 ≥ 0 task_max_running_time 最大Task运行时长 该指标为集群运行的所有task中,运行时长最长的task的耗时 ≥ 0 ms number_of_pending_tasks Pending Task排队任务数 CSS集群中待Master处理的task的排队任务数。 ≥ 0 sum_disk_read_requests_rate 磁盘读总IOPS CSS集群所有节点的磁盘每秒读取数据的请求总次数。 ≥ 0 sum_disk_write_requests_rate 磁盘写总IOPS CSS集群所有节点的磁盘每秒写数据的请求总次数。 ≥ 0 sum_disk_read_bytes_rate 磁盘读总带宽 CSS集群所有节点的磁盘每秒读出数据量。 ≥ 0 sum_disk_write_bytes_rate 磁盘写总带宽 CSS集群所有节点的磁盘每秒写入数据量。 ≥ 0
  • 前提条件 部署 APM Agent时,必须确保接入APM的机器与APM服务网络连通,Agent才能正常工作。 可使用Telnet命令测试目标机器与APM服务器网络是否连通。例如,以检查华北-北京四区域,且接入方式为“Skywalking”的连通性为例,请登录应用所部署的机器,并输入命令telnet 100.125.2.112:11800,其他区域或源代码的地址请参考探针下载地址。 Php语言支持Skywalking和OpenTelemetry。
  • 前提条件 部署APM Agent时,必须确保接入APM的机器与APM服务网络连通,Agent才能正常工作。 可使用Telnet命令测试目标机器与APM服务器网络是否连通。例如,以检查华北-北京四区域,且接入方式为“Skywalking”的连通性为例,请登录应用所部署的机器,并输入命令telnet 100.125.2.112:11800,其他区域或源代码的地址请参考探针下载地址。 Python语言支持Skywalking和OpenTelemetry。
  • 前提条件 部署APM Agent时,必须确保接入APM的机器与APM服务网络连通,Agent才能正常工作。 可使用Telnet命令测试目标机器与APM服务器网络是否连通。例如,以检查华北-北京四区域,且接入方式为“Skywalking”的连通性为例,请登录应用所部署的机器,并输入命令telnet 100.125.2.112:11800,其他区域或源代码的地址请参考探针下载地址。 GO语言支持Skywalking和OpenTelemetry。
  • 前提条件 部署APM Agent时,必须确保接入APM的机器与APM服务网络连通,Agent才能正常工作。 可使用Telnet命令测试目标机器与APM服务器网络是否连通。例如,以检查华北-北京四区域,且接入方式选择“增强型探针”的连通性为例,请登录应用所部署的机器,并输入命令telnet 100.125.12.108:41333,其他区域地址请参考探针下载地址。 Node.js语言,支持增强型探针、Skywalking和OpenTelemetry。
  • 操作步骤 下载JavaAgent,参考探针下载地址下载apm-javaagent,并将javaagent下载到需要接入APM机器的任意目录。 示例命令: curl -O https://xxx/apm-javaagent-x.x.x.tar 执行tar命令解压javaagent。 示例命令: tar -xvf apm-javaagent-x.x.x.tar 修改javaagent中的apm.config配置文件。master.address配置请参见探针接入地址,将AK/SK写入配置文件中,如下图所示。 图3 写入AK/SK 修改java进程启动脚本。 在服务启动脚本的java命令之后,配置apm-javaagent.jar包所在路径,并指定java进程的组件名。 添加-javaagent参数示例: java -javaagent:/xxx/apm-javaagent/apm-javaagent.jar=appName={appName} 当企业业务很多的情况下,也支持更为复杂一些的配置,添加-javaagent参数的复杂模式如: java -javaagent:/xxx/apm-javaagent/apm-javaagent.jar=appName=myApp,env=myEnv,envTag=myTag,business=myBusiness,subBusiness=mySub 上述参数属于APM内置的CMDB信息,具体详情见CMDB管理章节。 由于历史原因,APM启动参数设置的元数据,跟CMDB概念有一些冲突,这里进行说明。 启动参数一般会设置 -javaagent:D:\javaagent-package\apm-javaagent\apm-javaagent.jar=appName=xxx,env=yyy,business=zzz,subBusiness=sss,envTag=xxx,在这里appName代表组件,business代表应用,subBusiness代表子应用,envTag代表环境标签。 如果没有在web界面对business参数进行设置,启动javaagent时系统就会报错;其他参数如果没有设置,在启动javaagent时会自动创建出来,包括子应用、组件、环境及环境标签等。 同一个应用下,组件名称不能重复。 重新部署应用。
  • 通过Manager查看集群监控( MRS 2.x及之前版本) 登录Manager页面,选择“系统概览”。 在“时间区间”选择需要查看监控数据的时间段。可供选择的选项如下: 实时、最近3小时、最近6小时、最近24小时、最近一周、最近一个月、最近三个月、最近六个月、自定义(选择自定义时,在时间范围内自行选择需要查看的时间)。 单击“查看”可以查看相应时间区间的监控数据。 MRS Manager在“服务概览”显示各个服务的“健康状态”和“角色数”。 单击曲线图表上侧的图标,可显示具体的指标说明信息。 自定义监控指标报表。 单击“定制”,勾选需要在MRS Manager显示的监控指标。单击“确定”保存并显示所选指标。单击“清除”可批量取消全部选中的指标项。 MRS Manager支持统计的指标共14个,界面最多显示12个定制的监控指标。 用户可以选择页面自动刷新间隔的设置,也可以单击马上刷新。勾选“全屏”会将“系统概览”窗口最大化。 支持三种参数值: “每60秒刷新一次”:刷新间隔60秒。 “每120秒刷新一次”:刷新间隔120秒。 “停止刷新”:停止刷新。 导出监控指标报表。 选择报表的时间范围。可供选择的选项如下,单击“导出”,Manager将生成指定时间范围内、已勾选的集群监控指标报表文件,请选择一个位置保存,并妥善保管该文件。 如果需要查看指定时间范围的监控指标对应的分布曲线图,请单击“查看”,界面将显示用户自定义时间范围内选定指标的分布曲线图。 用户需要了解服务和主机关键监控指标中最高、最低或平均监控数据形成的曲线,即资源分布情况时,可以在MRS Manager上查看,支持查询1小时以内的监控数据。 用户也可以在MRS Manager上修改资源分布,使服务和主机的资源分布图表中,可以按自定义的数值显示一条或多条最高、最低监控数据形成的曲线。 部分监控指标的资源分布不记录。 查看服务监控指标的资源分布 在MRS Manager,单击“服务管理”。 单击服务列表中指定的服务名称。 单击“资源贡献排名”。 “指标”中选择服务的关键指标,MRS Manager将显示过去1小时内指标的资源分布情况。 查看主机监控指标的资源分布 在MRS Manager,单击“主机管理”。 单击主机列表中指定的主机名称。 单击“资源贡献排名”。 “指标”中选择主机的关键指标,MRS Manager将显示过去1小时内指标的资源分布情况。 配置资源分布 在MRS Manager,单击“系统设置”。 在“配置”区域“监控和告警配置”下,单击“资源贡献排名配置”。 修改资源分布的显示数量。最大值与最小值的资源分布显示数量总和不能大于5。 “TOP数量”填写最大值的显示数量。 “BOTTOM数量”填写最小值的显示数量。 单击“确定”保存设置。 界面右上角提示“保存TOP数量和BOTTOM数量成功。”。
  • 通过管理控制台查看集群监控 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在“概览”页签单击“ IAM 用户同步”右侧的“单击同步”进行IAM用户同步。 用户同步完成后,单击“监控信息”页签,查看到集群的监控指标报表。 在时间区间选择需要查看监控数据的时间段。 自定义监控指标报表。 单击“定制”,勾选需要显示的监控指标。 单击“确定”保存并显示所选指标。 单击“清除全部”可批量取消全部选中的指标项。 导出监控指标报表。 选择报表的时间范围。 单击“导出”,MRS将生成指定时间范围内、已勾选的集群监控指标报表文件,请选择一个位置保存,并妥善保管该文件。
  • 通过Manager查看集群监控(MRS 3.x及之后版本) 登录集群Manager界面。 单击“主页”。 在图表区的右上角,单击,在弹出菜单中选择“定制”。 监控时段以5分钟为单位,显示最近1小时的监控数据;从进入“实时监控”页面后,在监控图右侧以5分钟为单位显示实时监控数据。 在窗口左侧分类中,选择一项监控资源主体,然后勾选一个或多个监控指标。 单击“确定”即可查看对应的监控指标详情。 导出监控指标报表。 导出全部监控数据 在“主页”选择所需要操作的集群的图表区的右上角,选择一个时间范围获取监控数据,例如“1周”。 默认为实时数据,无法导出。单击可以自定义监控数据时间范围。 在图表区的右上角,单击,在弹出菜单中选择“导出” 导出指定监控项数据 在“主页”选择所需要操作的集群的图表区任意一个监控报表窗格的右上角,单击。 选择一个时间范围获取监控数据,例如“1周”。 默认为实时数据,无法导出。单击可以自定义监控数据时间范围。 单击“导出”。 历史报表根据所自定义的时间长度不同,图表横轴中每个时间间隔也会不同,具体监控数据的规则如下: 如果 FusionInsight Manager存储所用的 GaussDB 所在分区的磁盘使用率超过80%时,会清理实时监控数据和周期为5分钟的监控数据。 若为“租户资源”下的“存储资源(HDFS)”,0小时~300小时:每个间隔1小时,要求集群至少安装1小时以上,最多保留3个月监控数据。 MRS 3.3.0之前版本集群: 0~25小时:每个间隔5分钟,要求集群至少安装10分钟以上,最多保留15天监控数据。 25小时~150小时:每个间隔30分钟,要求集群至少安装30分钟以上,最多保留3个月监控数据。 150小时~300小时:每个间隔1小时,要求集群至少安装1小时以上,最多保留3个月监控数据。 300小时~300天:每个间隔1天,要求集群至少安装1天以上,最多保留6个月监控数据。 300天以上:每个间隔7天,要求集群安装7天以上,最多保留一年的监控数据。 MRS 3.3.0及之后版本集群: 0~21小时20分:每个间隔5分钟,要求集群至少安装10分钟以上,最多保留90天监控数据。 21小时20分~128小时:每个间隔30分钟,要求集群至少安装30分钟以上,最多保留90天监控数据。 128小时~256小时:每个间隔1小时,要求集群至少安装1小时以上,最多保留90天监控数据。 256小时~256天及以上:每个间隔1天,要求集群至少安装1天以上,最多保留90天监控数据。
  • 告警处置举例 此处以“【应用】源ip xx.xx.xx.xx 对 域名 demo.host.com进行了xx次攻击”告警为例进行说明。 收到告警: 图7 告警示例 分析思路: 源IP对域名进行爆破攻击,会对可能的子域名产生大量的枚举和测试。 安全云脑 通过分析 Web应用防火墙 的告警,统计1小时内的攻击次数,过滤出次数超过阈值的攻击进行告警。 查看告警: 告警详情页面可以看到告警攻击IP、攻击域名,分析模型是“应用-源ip对域名进行爆破攻击”数据管道名称为“sec-waf-attack”。 图8 查看总览信息 图9 查看上下文信息 因为是统计类模型告警,可以结合WAF日志进行安全分析。单个源IP对域名进行多次攻击,虽然已经被WAF阻断,但是由于攻击次数较多,存在绕过WAF的风险,将多次攻击的行为冒泡出来。 分析/处理告警: 进入安全分析页面,打开sec-waf-access日志。 输入查询语句,筛选查询时间,并单击“查询/分析”。 response_code='200' and remote_ip=MATCH_QUERY('xx.xx.xx.xx') 图10 分析告警 根据查询结果,分析查询该IP有没有成功的访问请求。 通过分析,如果该攻击ip请求成功的都是非敏感url,不存在攻击成功或绕过WAF检测的风险,直接在告警详情页面,单击“关闭”,并根据提示关闭告警。 图11 关闭告警 如果是有风险url访问成功,直接在告警详情页面,单击“一键阻断”,填写风险IP,选择WAF防线,阻断老化15天,进行危险IP封堵。 图12 一键阻断
  • 典型告警处理指导 表3 典型告警处理指导 告警类型 安全防线 依赖数据源 云脑智能模型 护网推荐处理建议 侦察阶段典型告警 网络防线 NIP攻击日志 网络-高危端口对外暴露 排查源IP对系统中的高危端口连接是否为业务需要。如果为业务需要,可修改模型脚本将该源IP过滤掉;如果非业务需要,则可修改相应安全组入方向规则,禁止高危端口暴漏公网,或者对源ip进行封堵拦截。同时为保证系统安全,尽量关闭不必要的端口。 侦察阶段典型告警 应用防线 WAF攻击日志 应用-源ip进行url遍历 应急处理可以记录所有的访问请求和响应,及时发现攻击行为,针对攻击源IP进行限制或者阻断,可以通过配置黑名单策略进行封锁。 侦察阶段典型告警 应用防线 WAF访问日志 应用-疑似存在源码泄露风险 应急处理可以记录所有的访问请求和响应,及时发现攻击行为,针对攻击源IP进行限制或者阻断,可以通过配置黑名单策略进行封锁。 尝试攻击典型告警 应用防线 WAF攻击日志 应用-WAF关键攻击告警、应用-疑似存在Shiro漏洞、应用-疑似存在log4j2漏洞、应用-疑似存在 Java框架通用代码执行漏洞、应用-疑似存在fastjson漏洞 需要联系业务责任人,排查Web服务器是否存在相关漏洞,确认是否攻击成功。如果存在漏洞,应及时修改漏洞并加固安全;如果攻击成功,可结合威胁情报对攻击IP进行拦截。 尝试攻击典型告警 网络防线 NIP攻击日志 网络-检测黑客工具攻击、网络-登录爆破告警 请确认该操作是否为正常业务人员的行为,如果不是,可以参考以下处置建议: 切断网络连接:立即停止受攻击的设备或系统与网络的连接,以防止攻击者继续进行攻击或窃取数据。 收集证据:记录攻击发生的时间、攻击者使用的IP地址、攻击类型和受影响的系统等信息,这些信息可能有助于后续的调查和追踪。 尝试攻击典型告警 网络防线 CFW访问控制日志 网络-疑似存在DOS攻击 请确认该操作是否为正常业务人员的行为,如果不是,可在相关网络设备上进行IP拦截或封堵。 入侵成功典型告警 网络防线 NIP攻击日志 网络-命令注入告警 如果发现源端口或目的端口为4444、8686、7778等非常用端口(可疑端口一般为4个数字),需联系责任人确认业务场景。如果不是正常业务行为,可能是黑客正在进行命令注入攻击,需要结合业务及主机日志查看是否被成功入侵,同时也可以对攻击ip采取拦截封堵等措施。 入侵成功典型告警 网络防线 NIP攻击日志 网络-恶意软件 [蠕虫、病毒、木马] 首先应该立即断开与互联网的连接,防止恶意软件进一步传播或者窃取您的敏感信息。之后可通过系统还原,杀毒软件等方式扫描和清除恶意软件。 入侵成功典型告警 主机防线 主机安全告警日志 主机-暴力破解成功、主机-异常shell、主机-异地登录 请确认该事件是否攻击成功,如果攻击成功,表明该主机已经失陷,需要进行主机隔离,防止风险扩散,之后对失陷的主机进行加固。 入侵成功典型告警 主机防线 主机安全日志 主机-进程和端口信息隐匿、主机-异常文件属性修改 及时判断是否是内部人员操作,是否为误操作。如果是异常进程,或文件存在恶意行为,执行相关命令结束进程。 防御绕过典型告警 主机防线 主机安全告警日志 主机-rootkit事件 立即确认该Rootkit安装是否正常业务引起。如果是非正常业务引起的,建议您立即登录系统终止该Rootkit安装行为,利用主机安全告警信息全面排查系统风险,避免系统遭受进一步破坏。 权限维持典型告警 主机防线 主机安全告警日志 主机-反弹shell、主机-恶意程序 联系所属主机的责任人,登录到主机上停止恶意程序并删除恶意文件,同时进一步排查是否存在可疑进程,是否开放了可疑端口,是否有可疑连接等,并进一步检查自启动项,避免遗留,此外可以结合其他方式进行综合判断。 权限维持典型告警 网络防线 NIP攻击日志 网络-检测异常连接行为 首先需要确认是否为真实的异常行为,而非误报或误判。可以通过多个方法进行确认,例如,查看日志记录、使用网络监控工具等。一旦确认存在异常连接行为,需要立即采取措施切断该异常连接,消除恶意软件,以避免进一步安全问题的发生。 横向移动典型告警 主机防线 主机安全日志 主机-虚拟机横向连接 建议通过 堡垒机 等审计记录查看该命令是程序执行还是人为操作,如果为人为操作,需联系对应操作人确定,风格为非正常业务人员操作,需尽快确定该行为是否为异常恶意行为,是否危害到对应虚拟机,及时采取措施,保护计算机和系统的安全。 持久化控制典型告警 网络防线 NIP攻击日志 网络-后门 首先应该立即断开与互联网的连接,防止后门进一步传播或者窃取您的敏感信息。可以使用杀毒软件进行扫描和清除后门,并查找和删除可疑文件,确保系统的安全性。 持久化控制典型告警 主机防线 主机安全日志 主机-恶意定时任务写入 请确认是否为正常业务任务,如果不是,可以停用计划任务。
  • 操作场景 安全云脑提供了4+1个大屏,一个是综合 态势感知 大屏,其他四个大屏是值班响应大屏、资产大屏、威胁态势大屏和脆弱性大屏。 护网开始之前我们已经完成了自查整改,清零了所有未处理的运营数据。 护网及重保期间,安全值班人员需要重点关注“值班响应大屏”的数据信息,当有告警冒泡出来的时候,及时进行告警处理,清零全部告警数据。 通过告警详情页数据进行告警分析,如果需要结合其他日志数据,可通过安全分析在对应数据管道进行查询统计溯源。误报告警直接关闭,有风险告警可通过“一键阻断”能力应急阻断。