云服务器内容精选

  • 包年/包月资源通知机制 表1 包年/包月资源通知机制 通知场景 通知类型 通知介绍 资源即将到期 即将到期通知 包年/包月资源(未设置自动续费、到期转按需、到期不续费)到期前15、7、3、1天,汇总发送通知告知客户;包年/包月资源(设置到期不续费)到期前3天,汇总发送通知告知客户。 包年/包月资源(设置到期转按需)不发送通知。 资源包到期前15、7、3、1天,汇总发送通知告知客户。 资源即将冻结 即将冻结通知 包年/包月资源进入宽限期第1天和进入宽限期后,冻结前3、1天,汇总发送通知告知客户。 资源即将释放 即将释放通知 包年/包月资源进入保留期第1天和进入保留期后,释放前14、7、3、1天,汇总发送通知告知客户。 资源设置自动续费 自动续费成功通知 自动续费成功,发送通知告知客户。 自动续费失败通知 到期前7天发起自动续费。若自动续费失败,系统会在到期前/冻结前5、2天及到期/冻结当天和释放前6、2天及释放当天汇总发送通知。 资源已释放或已退订 已释放通知 资源退订成功或到期释放时,汇总发送通知告知客户资源已退订或已释放。 资源开通成功 创建开通通知 资源开通成功,汇总一小时内开通成功的资源发送一次通知告知客户资源已开通成功。 注:若同一天同时存在即将到期/冻结/释放两种及以上场景时,则统一只发送一次续费提醒通知。
  • 操作步骤 登录COC。 进入COC“总览”后,可以查看对应的资源信息。 图1 资源信息 打开全局视角,查看所有region的资源信息。 单击图标上的,查询对应资源类型的全部资源信息。 全局视角下,单击图标上的,查询不同region对应资源类型的全部资源信息。 图2 不同region下,资源列表 鼠标移动到含有告警的资源上,查看对应机器告警。 图3 告警信息 单击“查看更多”查看更多告警。 图4 更多告警信息 点击右上角“刷新”,同步资源与告警信息。
  • 安全评分 “安全评分”板块根据不同版本的 威胁检测 能力,评估整体资产安全健康得分,可快速了解未处理风险对资产的整体威胁状况。 安全评分每天凌晨2:00自动更新,也支持通过单击“重新检测”来进行实时更新。 分值范围为0~100,分值越大表示风险越小,资产更安全,安全分值详细说明请参见安全评分。 分值环形图不同颜色表示不同威胁等级。例如,黄色对应“中危”。 资产风险修复,并手动刷新告警事件状态后,安全评分实时更新。资产安全风险修复后,也可以直接单击“重新检测”,重新检测资产并进行评分。 资产安全风险修复后,为降低安全评分的风险等级,需手动忽略或处理告警事件,刷新告警列表中告警事件状态。 安全评分显示为历史扫描结果,非实时数据,如需获取最新数据及评分,可单击“重新检测”,获取最近的数据。
  • 安全监控 “安全监控”板块展示待处理威胁告警、待修复漏洞、合规检查问题的安全监控统计数据。 表2 安全监控参数说明 参数名称 参数说明 威胁告警 呈现近7天内本账号所有工作空间内未处理威胁告警,可快速了解资产遭受的威胁告警类型和数量,呈现威胁告警的统计结果。统计信息更新频率为每5分钟更新一次。 此处严重等级含义如下: 致命:即致命风险,表示您的资产中检测到了入侵事件,建议您立即查看告警事件的详情并及时进行处理。 高危:即高危风险,表示资产中检测到了可疑的异常事件,建议您立即查看告警事件的详情并及时进行处理。 其他:即其他类型(中危、低危、提示)风险,表示服务器中检测到了有风险的异常事件,建议您及时查看该告警事件的详情。 单击威胁告警模块,系统将列表实时呈现近7天内TOP5的威胁告警事件,可快速查看威胁告警详情,监控威胁告警状况。 呈现近7天TOP5的威胁告警事件的信息,包括威胁告警名称、告警等级、资产名称、告警发现时间。 如果列表显示内容为空,表示近7天无威胁告警事件。 漏洞 展示您本账号所有工作空间内资产中TOP5漏洞类型,以及近7天内还未修复的漏洞总数和不同漏洞风险等级对应的数量。统计信息更新频率为每5分钟更新一次。 此处严重等级含义如下: 高危:即高危风险,表示资产中检测到了漏洞事件,建议您立即查看漏洞事件的详情并及时进行处理。 中危:即中危风险,表示资产中检测到了可疑的异常事件,建议您立即查看漏洞事件的详情并及时进行处理。 其他:即其他类型(低危、提示)风险,表示服务器中检测到了有风险的异常事件,建议您及时查看该漏洞的详情。 单击漏洞模块中的“漏洞类型Top5”栏,系统将呈现TOP5(根据某个漏洞影响的主机数量进行排序)的漏洞类型。 此处的TOP等级是根据某个漏洞影响的主机数量进行排序,受影响主机数量越多排名越靠前。 仅当主机中Agent版本为2.0时,才会在“漏洞类型Top5”中显示对应数据。如未显示数据或需要查看TOP5漏洞类型,请将主机将Agent1.0升级至Agent2.0。 单击漏洞模块中的“实时监控最新漏洞风险事件 Top5”栏,系统将列表实时呈现近7天内TOP5的漏洞事件,可快速查看漏洞详情。 呈现当日最新TOP5漏洞事件详情,包括漏洞名称、漏洞等级、资产名称、漏洞发现时间。 如果列表显示内容为空,表示当日无漏洞事件。 合规检查 展示您本账号所有工作空间内资产中存在的合规风险总数量和不同危险等级的合规检查风险对应的数量。统计信息更新频率为每5分钟更新一次。 此处严重等级含义如下: 致命:即致命风险,表示您的资产中检测到了不合规配置,建议您立即查看合规异常事件的详情并及时进行处理。 高危:即高危风险,表示资产中检测到了可疑的异常配置,建议您立即查看合规检查事件的详情并及时进行处理。 其他:即其他类型(中危、低危、提示)风险,表示服务器中检测到了有风险的异常配置,建议您及时查看该合规检查项目的详情。 单击合规检查异常模块,系统将列表实时呈现TOP5的合规检查异常事件,可快速查看合规检查详情。 呈现最近一次合规检查中TOP的合规异常事件详情,包括合规检查项目名称、等级、受影响资产数量、发现时间。 如果列表显示内容为空,表示无合规异常事件。
  • 安全评分扣分项 安全评分扣分项及其分值情况如表2所示。 表2 安全评分扣分项 分类 扣分项 单项扣分值 处理建议 最高扣分上限 安全服务启用 未开启安全相关服务 - 开启安全相关服务 30 合规检查 存在未处理的致命不合规项 10 按照合规修复建议指导进行合规问题修复,修复后重新触发扫描任务,自动刷新评分。 20 存在未处理的高危不合规项 5 存在未处理的中危不合规项 2 存在未处理的低危不合规项 0.1 漏洞 存在未处理的致命漏洞 10 按照漏洞修复建议指导进行漏洞修复,修复后重新触发 漏洞扫描 任务,自动刷新评分。 20 存在未处理的高危漏洞 5 存在未处理的中危漏洞 2 存在未处理的低危漏洞 0.1 威胁告警 存在未处理的致命告警事件 10 按照威胁事件处置指导建议进行修复,修复后自动刷新评分。 30 存在未处理的高危告警事件 5 存在未处理的中危告警事件 2 存在未处理的低危告警事件 0.1
  • 基础指标:Flink指标 介绍通过Flink服务上报到 AOM 的指标的类别、名称、含义等信息。 表1 Flink服务监控指标 分类 指标 指标含义 单位 CPU flink_jobmanager_Status_JVM_CPU_Load JobManager中JVM的CPU负载。 无 flink_jobmanager_Status_JVM_CPU_Time jobmanager中JVM使用的CPU时间。 无 flink_jobmanager_Status_ProcessTree_CPU_Usage JobManager 中JVM的CPU使用率。 无 flink_taskmanager_Status_JVM_CPU_Load TaskManager 中JVM的CPU负载。 无 flink_taskmanager_Status_JVM_CPU_Time TaskManager中JVM使用的CPU时间。 无 flink_taskmanager_Status_ProcessTree_CPU_Usage TaskManager 中的JVM的CPU使用率。 无 Memory flink_jobmanager_Status_JVM_Memory_Heap_Used JobManager的堆内存使用量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Heap_Committed 保证JobManager的JVM可用的堆内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Heap_Max JobManager中可用于内存管理的最大堆内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_NonHeap_Used JobManager的堆外内存使用量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_NonHeap_Committed 保证JobManager的JVM可用的堆外内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_NonHeap_Max JobManager中可用于内存管理的最大堆外内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Metaspace_Used JobManager MetaSpace内存池中当前使用的内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Metaspace_Committed JobManager MetaSpace内存池中保证可供JVM使用的内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Metaspace_Max JobManager MetaSpace内存池中可以使用的最大内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Direct_Count JobManager direct缓冲池中的缓冲区数。 无 flink_jobmanager_Status_JVM_Memory_Direct_MemoryUsed JobManager中JVM用于direct缓冲池的内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Direct_TotalCapacity JobManager中direct缓冲池中所有缓冲区的总容量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Mapped_Count JobManager中mapped缓冲池中的缓冲区个数。 无 flink_jobmanager_Status_JVM_Memory_Mapped_MemoryUsed JobManager中JVM用于mapped缓冲池的内存量。 字节(Byte) flink_jobmanager_Status_JVM_Memory_Mapped_TotalCapacity JobManager中mapped缓冲池中所有缓冲区的总容量 字节(Byte) flink_jobmanager_Status_Flink_Memory_Managed_Used JobManager中已使用的托管内存量。 字节(Byte) flink_jobmanager_Status_Flink_Memory_Managed_Total JobManager中托管内存总量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Heap_Used TaskManager的堆内存使用量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Heap_Committed 保证TaskManager的JVM可用的堆内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Heap_Max TaskManager中可用于内存管理的最大堆内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_NonHeap_Used TaskManager的堆外内存使用量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_NonHeap_Committed 保证TaskManager的JVM可用的堆外内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_NonHeap_Max TaskManager中可用于内存管理的最大堆外内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Metaspace_Used TaskManager MetaSpace内存池中当前使用的内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Metaspace_Committed TaskManager MetaSpace内存池中保证可供JVM使用的内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Metaspace_Max TaskManager MetaSpace内存池中可以使用的最大内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Direct_Count TaskManager direct缓冲池中的缓冲区数。 无 flink_taskmanager_Status_JVM_Memory_Direct_MemoryUsed TaskManager中JVM用于direct缓冲池的内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Direct_TotalCapacity TaskManager中direct缓冲池中所有缓冲区的总容量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Mapped_Count TaskManager中mapped缓冲池中的缓冲区个数。 无 flink_taskmanager_Status_JVM_Memory_Mapped_MemoryUsed TaskManager中JVM用于mapped缓冲池的内存量。 字节(Byte) flink_taskmanager_Status_JVM_Memory_Mapped_TotalCapacity TaskManager中mapped缓冲池中所有缓冲区的总容量。 字节(Byte) flink_taskmanager_Status_Flink_Memory_Managed_Used TaskManager中已使用的托管内存量。 字节(Byte) flink_taskmanager_Status_Flink_Memory_Managed_Total TaskManager中托管内存总量。 字节(Byte) flink_taskmanager_Status_ProcessTree_Memory_RSS 通过Linux获取整个进程的内存。 字节(Byte) Threads flink_jobmanager_Status_JVM_Threads_Count JobManager中活动的线程总数。 个 flink_taskmanager_Status_JVM_Threads_Count TaskManager中活动中的线程总数。 个 GarbageCollection flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count JobManager CMS垃圾回收器的回收次数。 次数 flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time JobManager CMS执行垃圾回收总耗时。 毫秒(ms) flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Count JobManager GC次数。 次数 flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Time JobManager每次GC时间。 毫秒(ms) flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count TaskManager CMS垃圾回收器的回收次数。 次数 flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time TaskManager CMS执行垃圾回收总耗时。 毫秒(ms) flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Count TaskManager GC次数。 次数 flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Time TaskManager每次GC时间。 毫秒(ms) ClassLoader flink_jobmanager_Status_JVM_ClassLoader_ClassesLoaded JobManager自JVM启动以来加载的类的总数。 无 flink_jobmanager_Status_JVM_ClassLoader_ClassesUnloaded JobManager自JVM启动以来卸载的类的总数。 无 flink_taskmanager_Status_JVM_ClassLoader_ClassesLoaded TaskManager自JVM启动以来加载的类的总数。 无 flink_taskmanager_Status_JVM_ClassLoader_ClassesUnloaded TaskManager自JVM启动以来卸载的类的总数。 无 Network flink_taskmanager_Status_Network_AvailableMemorySegments TaskManager未使用的内存segments的个数。 无 flink_taskmanager_Status_Network_TotalMemorySegments TaskManager中分配的内存segments的总数。 无 Default shuffle service flink_taskmanager_Status_Shuffle_Netty_AvailableMemorySegments TaskManager未使用的内存segments的个数。 无 flink_taskmanager_Status_Shuffle_Netty_UsedMemorySegments TaskManager已使用的内存segments的个数。 无 flink_taskmanager_Status_Shuffle_Netty_TotalMemorySegments TaskManager分配的内存segments的个数。 无 flink_taskmanager_Status_Shuffle_Netty_AvailableMemory TaskManager中未使用的内存量。 字节(Byte) flink_taskmanager_Status_Shuffle_Netty_UsedMemory TaskManager中已使用的内存量。 字节(Byte) flink_taskmanager_Status_Shuffle_Netty_TotalMemory TaskManager中分配的内存量。 字节(Byte) Availability flink_jobmanager_job_numRestarts 自作业提交以来的重新启动总数。 次 Checkpointing flink_jobmanager_job_lastCheckpointDuration 完成最新checkpoint所用的时间 毫秒(ms) flink_jobmanager_job_lastCheckpointSize 最新checkpoint的大小,如果启用了增量检查点或更改日志,则此度量可能与lastCheckpointFullSize不同。 字节(Byte) flink_jobmanager_job_numberOfInProgressCheckpoints 正在进行的checkpoint的数量。 个 flink_jobmanager_job_numberOfCompletedCheckpoints 成功完成的checkpoint的数量。 个 flink_jobmanager_job_numberOfFailedCheckpoints 失败的checkpoint的数量。 个 flink_jobmanager_job_totalNumberOfCheckpoints 所有checkpoint的总数。 个 IO flink_taskmanager_job_task_numBytesOut Task输出的字节总数。 字节(Byte) flink_taskmanager_job_task_numBytesOutPerSecond Task每秒输出的字节总数。 字节/秒(Byte/s) flink_taskmanager_job_task_isBackPressured Task是否反压。 无 flink_taskmanager_job_task_numRecordsIn Task收到的记录总数。 条 flink_taskmanager_job_task_numRecordsInPerSecond Task每秒收到的记录总数。 条/秒 flink_taskmanager_job_task_numBytesIn Task收到的字节数。 字节(Byte) flink_taskmanager_job_task_numBytesInPerSecond Task每秒收到的字节数。 字节/秒(Byte/s) flink_taskmanager_job_task_numRecordsOut Task发出的记录总数。 条 flink_taskmanager_job_task_numRecordsOutPerSecond Task每秒发出的记录总数。 条/秒 flink_taskmanager_job_task_operator_numRecordsIn Operator收到的记录总数。 条 flink_taskmanager_job_task_operator_numRecordsInPerSecond Operator每秒收到的记录总数。 条/秒 flink_taskmanager_job_task_operator_numRecordsOut Operator发出的记录总数。 条 flink_taskmanager_job_task_operator_numRecordsOutPerSecond Operator每秒发出的记录总数。 条/秒 flink_taskmanager_job_task_operator_sourceIdleTime Source 闲置时长。 毫秒(ms) flink_taskmanager_job_task_operator_source_numRecordsIn source收到的记录总数。 条 flink_taskmanager_job_task_operator_sink_numRecordsOut Sink端输出记录总数。 条 flink_taskmanager_job_task_operator_source_numRecordsInPerSecond 数据源Source端每秒输入的记录数。 条/秒 flink_taskmanager_job_task_operator_sink_numRecordsOutPerSecond 数据目的Sink端每秒输出的记录数。 条/秒 kafka connector flink_taskmanager_job_task_operator_currentEmitEventTimeLag 数据的事件时间与数据离开 Source 时的间隔 毫秒(ms) flink_taskmanager_job_task_operator_currentFetchEventTimeLag 数据的事件时间与数据进入Source的时间间隔 毫秒(ms) flink_taskmanager_job_task_operator_pendingRecords 尚未被 Source 拉取的数据数量 条 父主题: 指标总览
  • 编辑项目周报 进入项目总览界面,点击【项目周报】 编辑周报 图1 表1 周报管理 参数 说明 周报名称 必填,自定义周报名称。 是否自动发送 必选。开关打开代表自动发送,提交之后会立即发送一次,之后按照设定的频率定期发送;关闭代表手动发送,提交之后只会立即发送一次,不会定期发送。 发送频次 打开自动发送之后为必选项。包含每周和每月。 发送时间 选择发送频次后为必选项。发送频次为每周,则发送时间为周一至周天的整点;发送频次为每月,则发送时间为每月1日至31日的整点。 密件抄送人 选择或输入邮箱地址后点击发送,将会以密送的形式发送到对方邮箱。 邮件接收人 必填。您也可以下拉选择空间成员,只有已经在解决方案工作台空间订阅了邮件的账号才能够接收到周报邮件,没有订阅则不会接收到邮件;您也可以输入邮箱,发送给指定邮箱人员。 邮件抄送人 必填。您也可以下拉选择空间成员,只有已经在解决方案工作台空间订阅了邮件的账号才能够接收到周报邮件,没有订阅则不会接收到邮件。您也可以输入邮箱,发送给指定邮箱人员。 项目背景 选填。 整体工作进展 必填。项目的整体进展。 本周工作进度 必填。总结本周工作进度。 下周工作计划 必填。输入下周计划。 问题跟踪 选填。工作进展中出现的问题处理跟踪。 工作进展 工作项的进展详情(此项为系统自动生成)。 添加自定义工作项 选填。自定义添加的工作项。 点击【发送】(打开自动发送按钮为【自动发送】,否则为【手动发送】)。 父主题: 总览
  • 基础指标:容器指标 介绍通过CCE的kube-prometheus-stack插件或者自建K8s集群上报到AOM集群容器指标的类别、名称、含义等信息。 表1 CCE/自建K8s集群容器指标 Target名称 Job名称 指标 指标含义 serviceMonitor/monitoring/coredns/0 serviceMonitor/monitoring/node-local-dns/0 coredns 和node-local-dns coredns_build_info CoreDNS的构建信息 coredns_cache_entries 缓存中元素的数量 coredns_cache_size 缓存大小 coredns_cache_hits_total 缓存命中次数 coredns_cache_misses_total 缓存未命中次数 coredns_cache_requests_total 不同维度下DNS解析请求的计数 coredns_dns_request_duration_seconds_bucket DNS请求耗时直方图bucket coredns_dns_request_duration_seconds_count DNS请求耗时直方图count coredns_dns_request_duration_seconds_sum DNS请求耗时直方图sum coredns_dns_request_size_bytes_bucket DNS请求大小直方图bucket coredns_dns_request_size_bytes_count DNS请求大小直方图count coredns_dns_request_size_bytes_sum DNS请求大小直方图sum coredns_dns_requests_total DNS请求次数 coredns_dns_response_size_bytes_bucket DNS响应大小直方图bucket coredns_dns_response_size_bytes_count DNS响应大小直方图count coredns_dns_response_size_bytes_sum DNS响应大小直方图sum coredns_dns_responses_total DNS响应码及数量 coredns_forward_conn_cache_hits_total 每个协议和数据流的缓存命中次数 coredns_forward_conn_cache_misses_total 每个协议和数据流的缓存未命中次数 coredns_forward_healthcheck_broken_total 健康检查broken次数 coredns_forward_healthcheck_failures_total 健康检查失败次数 coredns_forward_max_concurrent_rejects_total 并发超限拒绝次数 coredns_forward_request_duration_seconds_bucket forward请求耗时直方图bucket coredns_forward_request_duration_seconds_count forward请求耗时直方图count coredns_forward_request_duration_seconds_sum forward请求耗时直方图sum coredns_forward_requests_total 每个数据流的请求次数 coredns_forward_responses_total 每个数据流的响应次数 coredns_health_request_duration_seconds_bucket health请求耗时直方图bucket coredns_health_request_duration_seconds_count health请求耗时直方图count coredns_health_request_duration_seconds_sum health请求耗时直方图sum coredns_health_request_failures_total health请求失败总数 coredns_hosts_reload_timestamp_seconds 最近一次加载host文件的时间戳 coredns_kubernetes_dns_programming_duration_seconds_bucket DNS编程耗时直方图bucket coredns_kubernetes_dns_programming_duration_seconds_count DNS编程耗时直方图count coredns_kubernetes_dns_programming_duration_seconds_sum DNS编程耗时直方图sum coredns_local_localhost_requests_total localhost请求数量 coredns_nodecache_setup_errors_total nodecache设置错误次数 coredns_dns_response_rcode_count_total 每个Zone和Rcode的响应次数 coredns_dns_request_count_total DNS请求次数 coredns_dns_request_do_count_total 设置了DO标志位的请求总数 coredns_dns_do_requests_total 设置了DO标志位的请求总数 coredns_dns_request_type_count_total 每个Zone和Type的请求次数 coredns_panics_total 发生Panic的总数 coredns_plugin_enabled 各插件的启用状态 coredns_reload_failed_total reload失败次数 serviceMonitor/monitoring/kube-apiserver/0 apiserver aggregator_unavailable_apiservice 不可用的APIService数量 apiserver_admission_controller_admission_duration_seconds_bucket 准入控制器(Admission Controller)的处理延时 apiserver_admission_webhook_admission_duration_seconds_bucket 准入Webhook(Admission Webhook)的处理延时 apiserver_admission_webhook_admission_duration_seconds_count 准入Webhook(Admission Webhook)的处理请求统计 apiserver_client_certificate_expiration_seconds_bucket 证书剩余有效时长 apiserver_client_certificate_expiration_seconds_count 证书剩余有效时长 apiserver_current_inflight_requests 在处理读请求数量 apiserver_request_duration_seconds_bucket 客户端对APIServer的访问时延 apiserver_request_total 对APIServer不同请求的计数 go_goroutines 协程数量 kubernetes_build_info 构建信息 process_cpu_seconds_total 进程CPU累计时长 process_resident_memory_bytes 进程常驻内存集的大小 rest_client_requests_total REST请求数量 workqueue_adds_total 工作队列Add次数 workqueue_depth 工作队列深度 workqueue_queue_duration_seconds_bucket 任务在工作队列中存在的时长 aggregator_unavailable_apiservice_total 不可用的APIService总数 rest_client_request_duration_seconds_bucket REST请求耗时 serviceMonitor/monitoring/kubelet/0 kubelet kubelet_certificate_manager_client_expiration_renew_errors 证书续期错误次数 kubelet_certificate_manager_client_ttl_seconds Kubelet客户端证书的TTL kubelet_cgroup_manager_duration_seconds_bucket 控制组管理器操作的持续时间bucket kubelet_cgroup_manager_duration_seconds_count 控制组管理器操作的持续时间count kubelet_node_config_error 如果节点遇到与配置相关的错误,则此指标为true(1),否则为false(0) kubelet_node_name 节点名称,值始终为1 kubelet_pleg_relist_duration_seconds_bucket PLEG中relist Pod耗时bucket kubelet_pleg_relist_duration_seconds_count PLEG中relist Pod耗时count kubelet_pleg_relist_interval_seconds_bucket PLEG中relist时间间隔bucket kubelet_pod_start_duration_seconds_count Pod启动时间count kubelet_pod_start_duration_seconds_bucket Pod启动时间bucket kubelet_pod_worker_duration_seconds_bucket 同步单个Pod的持续时间。按操作类型细分:create、update、sync kubelet_running_containers 当前运行的容器数 kubelet_running_pods 当前运行的pod数 kubelet_runtime_operations_duration_seconds_bucket 运行时操作耗时bucket kubelet_runtime_operations_errors_total 按操作类型列出的运行时操作错误的累积数 kubelet_runtime_operations_total 按操作类型列出的运行时操作的累积数 kubelet_volume_stats_available_bytes volume可用量 kubelet_volume_stats_capacity_bytes volume容量 kubelet_volume_stats_inodes volume inode总数 kubelet_volume_stats_inodes_used volume 已使用inode数量 kubelet_volume_stats_used_bytes volume已用量 storage_operation_duration_seconds_bucket 存储操作耗时bucket storage_operation_duration_seconds_count 存储操作耗时count storage_operation_errors_total 存储操作错误次数 volume_manager_total_volumes Volume Manager中的volumes总数 rest_client_requests_total HTTP请求数,维度包含Status code、Method和Host rest_client_request_duration_seconds_bucket 请求时延bucket process_resident_memory_bytes 进程常驻内存集的大小 process_cpu_seconds_total 进程CPU累计时长 go_goroutines 协程个数 serviceMonitor/monitoring/kubelet/1 kubelet container_cpu_cfs_periods_total 容器已经执行的CPU时间周期数 container_cpu_cfs_throttled_periods_total 容器被限流的CPU时间周期数 container_cpu_cfs_throttled_seconds_total 容器被限流的CPU时间 container_cpu_load_average_10s 容器过去10秒内的CPU负载的平均值 container_cpu_usage_seconds_total 容器在所有CPU内核上的累积占用时间 container_file_descriptors 容器打开的文件描述符数量 container_fs_inodes_free 文件系统的可用inode数量 container_fs_inodes_total 文件系统的总计inode数量 container_fs_io_time_seconds_total 磁盘/文件系统花费在 I/O 上的累计秒数 container_fs_limit_bytes 容器可以使用的磁盘/文件系统总量 container_fs_read_seconds_total 容器累积读取磁盘/文件系统数据的秒数 container_fs_reads_bytes_total 容器累积读取磁盘/文件系统数据的总量 container_fs_reads_total 容器已完成读取磁盘/文件系统的累积计数 container_fs_usage_bytes 文件系统的使用量 container_fs_write_seconds_total 容器累计写入磁盘/文件系统的秒数 container_fs_writes_bytes_total 容器累积写入磁盘/文件系统数据的总量 container_fs_writes_total 容器已完成写入磁盘/文件系统的累积计数 container_memory_cache 容器总页缓存内存 container_memory_failcnt 容器内存使用达到限制的次数 container_memory_max_usage_bytes 容器历史最大内存使用量 container_memory_rss 容器常驻内存集的大小 container_memory_swap 容器虚拟内存使用量 container_memory_usage_bytes 容器当前的内存使用量 container_memory_working_set_bytes 容器工作集内存使用量 container_network_receive_bytes_total 容器网络累积接收数据总量 container_network_receive_errors_total 接收时遇到的错误累积计数 container_network_receive_packets_dropped_total 接收时丢弃的数据包的累积计数 container_network_receive_packets_total 接收数据包的累积计数 container_network_transmit_bytes_total 容器网络累积传输数据总量 container_network_transmit_errors_total 传输时遇到的错误累积计数 container_network_transmit_packets_dropped_total 传输时丢弃的数据包的累积计数 container_network_transmit_packets_total 传输数据包的累积计数 container_spec_cpu_quota 容器分配的CPU配额 container_spec_memory_limit_bytes 容器可以使用的总内存量限制 machine_cpu_cores 逻辑CPU个数 machine_memory_bytes 内存总数 serviceMonitor/monitoring/kube-state-metrics/0 kube-state-metrics-prom kube_cronjob_status_active 当前活动的周期任务 kube_cronjob_info 周期任务 kube_cronjob_labels 周期任务标签 kube_configmap_info ConfigMap信息 kube_daemonset_created Daemonset创建时间 kube_daemonset_status_current_number_scheduled 当前调度的DaemonSet数量 kube_daemonset_status_desired_number_scheduled 期望调度的DaemonSet数量 kube_daemonset_status_number_available 期望运行DaemonSet且已经至少运行一个Pod的节点数 kube_daemonset_status_number_misscheduled 期望之外运行DaemonSet的节点数 kube_daemonset_status_number_ready 期望运行DaemonSet且Pod已经就绪的节点数 kube_daemonset_status_number_unavailable 期望运行DaemonSet但没有Pod运行的节点数 kube_daemonset_status_updated_number_scheduled 正在运行已更新的DaemonSet的Pod的节点数 kube_deployment_created Deployment创建时间戳 kube_deployment_labels Deployment标签 kube_deployment_metadata_generation Deployment期望状态的generation kube_deployment_spec_replicas Deployment期望的副本数 kube_deployment_spec_strategy_rollingupdate_max_unavailable 滚动升级时最大不可用副本数 kube_deployment_status_observed_generation Deployment控制器观察到的generation kube_deployment_status_replicas Deployment当前的副本数 kube_deployment_status_replicas_available Deployment可用的replicas数量 kube_deployment_status_replicas_ready Deployment已Ready的replicas数量 kube_deployment_status_replicas_unavailable Deployment不可用的replicas数量 kube_deployment_status_replicas_updated Deployment已更新的replicas数量 kube_job_info job信息 kube_namespace_labels 命名空间标签 kube_node_labels 节点标签 kube_node_info 节点信息 kube_node_spec_taint 节点污点信息 kube_node_spec_unschedulable 节点是否可调度 kube_node_status_allocatable 节点可分配资源 kube_node_status_capacity 节点资源总量 kube_node_status_condition 节点状态condition kube_node_volcano_oversubscription_status 节点超卖状态 kube_persistentvolume_status_phase PV状态的phase kube_persistentvolumeclaim_status_phase PVC状态的phase kube_persistentvolume_info PV信息 kube_persistentvolumeclaim_info PVC信息 kube_pod_container_info Pod的容器信息 kube_pod_container_resource_limits 容器的资源limits kube_pod_container_resource_requests 容器的资源requests kube_pod_container_status_last_terminated_reason 上次terminated的原因 kube_pod_container_status_ready 容器的readiness是否成功 kube_pod_container_status_restarts_total 容器重启次数 kube_pod_container_status_running 容器是否running kube_pod_container_status_terminated 容器是否terminated kube_pod_container_status_terminated_reason terminated容器的reason kube_pod_container_status_waiting 容器是否waiting kube_pod_container_status_waiting_reason waiting容器的reason kube_pod_info Pod信息 kube_pod_labels Pod标签 kube_pod_owner Pod的Owner信息 kube_pod_status_phase Pod当前的phase kube_pod_status_ready Pod状态是否Ready kube_secret_info Secret信息 kube_statefulset_created StatefulSet的创建时间戳 kube_statefulset_labels StatefulSet的标签信息 kube_statefulset_metadata_generation StatefulSet期望状态的generation kube_statefulset_replicas StatefulSet期望的Pod数 kube_statefulset_status_observed_generation StatefulSet控制器观察到的generation kube_statefulset_status_replicas StatefulSet的replicas数量 kube_statefulset_status_replicas_ready StatefulSet已ready的replicas数量 kube_statefulset_status_replicas_updated StatefulSet已更新的replicas数量 kube_job_spec_completions 成功完成所需Pod数量 kube_job_status_failed 失败的Job kube_job_status_succeeded 成功的Job kube_node_status_allocatable_cpu_cores 节点可分配CPU核数 kube_node_status_allocatable_memory_bytes 节点可分配内存 kube_replicaset_owner RS的所有者信息 kube_resourcequota ResourceQuota信息 kube_pod_spec_volumes_persistentvolumeclaims_info Pod关联的PVC信息 serviceMonitor/monitoring/prometheus-lightweight/0 prometheus-lightweight vm_persistentqueue_blocks_dropped_total 发送队列Block丢弃数量 vm_persistentqueue_blocks_read_total 发送队列Block读取数量 vm_persistentqueue_blocks_written_total 发送队列Block写入数量 vm_persistentqueue_bytes_pending 发送队列Pending字节数 vm_persistentqueue_bytes_read_total 发送队列读取的字节数 vm_persistentqueue_bytes_written_total 发送队列写入的字节数 vm_promscrape_active_scrapers 活跃的采集数量 vm_promscrape_conn_read_errors_total 采集读取错误次数 vm_promscrape_conn_write_errors_total 采集写入错误次数 vm_promscrape_max_scrape_size_exceeded_errors_total 采集大小超限错误次数 vm_promscrape_scrape_duration_seconds_sum 采集耗时sum vm_promscrape_scrape_duration_seconds_count 采集耗时count vm_promscrape_scrapes_total 采集次数 vmagent_remotewrite_bytes_sent_total 远程写发送字节数 vmagent_remotewrite_duration_seconds_sum 远程写耗时sum vmagent_remotewrite_duration_seconds_count 远程写耗时count vmagent_remotewrite_packets_dropped_total 远程写丢弃包次数 vmagent_remotewrite_pending_data_bytes 远程写Pending字节数 vmagent_remotewrite_requests_total 远程写请求次数 vmagent_remotewrite_retries_count_total 远程写重试次数 go_goroutines 协程个数 serviceMonitor/monitoring/node-exporter/0 node-exporter node_boot_time_seconds 节点开机时间 node_context_switches_total 上下文切换次数 node_cpu_seconds_total 节点CPU时间 node_disk_io_now 当前运行的I/O数量 node_disk_io_time_seconds_total I/O总耗时 node_disk_io_time_weighted_seconds_total 执行I/O所花费的加权秒数 node_disk_read_bytes_total 读取成功的字节总数 node_disk_read_time_seconds_total 读取花费的总时长 node_disk_reads_completed_total 读取完成的次数 node_disk_write_time_seconds_total 写入花费的总时长 node_disk_writes_completed_total 写入完成的次数 node_disk_written_bytes_total 写入成功的字节总数 node_docker_thinpool_data_space_available docker thinpool数据可用空间 node_docker_thinpool_metadata_space_available docker thinpool元数据可用空间 node_exporter_build_info NodeExporter构建信息 node_filefd_allocated 已分配的文件描述符 node_filefd_maximum 最大文件描述符 node_filesystem_avail_bytes 挂载的文件系统可用空间 node_filesystem_device_error statfs获取文件信息失败 node_filesystem_free_bytes 挂载的文件系统剩余空间 node_filesystem_readonly 只读挂载的文件系统 node_filesystem_size_bytes 挂载的文件系统占用空间 node_forks_total 节点fork总数 node_intr_total 节点中断总数 node_load1 节点1分钟CPU负载 node_load15 节点15分钟CPU负载 node_load5 节点5分钟CPU负载 node_memory_Buffers_bytes 节点缓冲区的内存 node_memory_Cached_bytes 节点页面缓存中的内存 node_memory_MemAvailable_bytes 节点可用内存 node_memory_MemFree_bytes 节点空闲内存 node_memory_MemTotal_bytes 节点内存总量 node_network_receive_bytes_total 累积接收数据总量 node_network_receive_drop_total 接收时丢弃的累积计数 node_network_receive_errs_total 接收时遇到的错误累积计数 node_network_receive_packets_total 接收数据包的累积计数 node_network_transmit_bytes_total 累积传输数据总量 node_network_transmit_drop_total 传输时丢弃的累积计数 node_network_transmit_errs_total 传输时遇到的错误累积计数 node_network_transmit_packets_total 传输数据包的累积计数 node_procs_blocked 当前blocked的进程 node_procs_running 当前运行的进程 node_sockstat_sockets_used 正在使用的套接字总量 node_sockstat_TCP_alloc 已分配的TCP套接字数量 node_sockstat_TCP_inuse 正在使用的TCP套接字数量 node_sockstat_TCP_orphan 无主的TCP连接数 node_sockstat_TCP_tw 等待关闭的TCP连接数 node_sockstat_UDPLITE_inuse UDP-Lite 套接字当前使用量 node_sockstat_UDP_inuse UDP 套接字当前使用量 node_sockstat_UDP_mem UDP 套接字缓冲区使用量 node_timex_offset_seconds 时钟时间偏移 node_timex_sync_status 节点时钟同步状态 node_uname_info 节点uname信息 node_vmstat_oom_kill /proc/vmstat中的oom_kill process_cpu_seconds_total 进程CPU累计时长 process_max_fds 进程最大文件描述符 process_open_fds 进程当前打开的文件描述符 process_resident_memory_bytes 进程常驻内存集的大小 process_start_time_seconds 进程启动时间 process_virtual_memory_bytes 进程虚拟内存大小 process_virtual_memory_max_bytes 进程虚拟内存最大大小 node_netstat_Tcp_ActiveOpens 从CLOSED 状态直接转换到SYN-SENT 状态的TCP连接数 node_netstat_Tcp_PassiveOpens 从LISTEN 状态直接转换到SYN-RCVD 状态的TCP连接数 node_netstat_Tcp_CurrEstab 当前状态为ESTABLISHED 或CLOSE-WAIT 的TCP 连接数 node_vmstat_pgmajfault /proc/vmstat中的pgmajfault node_vmstat_pgpgout /proc/vmstat中的pgpgout node_vmstat_pgfault /proc/vmstat中的pgfault node_vmstat_pgpgin /proc/vmstat中的pgpgin node_processes_max_processes PID限制值 node_processes_pids PID个数 node_nf_conntrack_entries 链接状态跟踪表分配的数量 node_nf_conntrack_entries_limit 链接状态跟踪表总量 promhttp_metric_handler_requests_in_flight 当前正在处理的metrics数量 go_goroutines NodeExporter协程个数 podMonitor/monitoring/nvidia-gpu-device-plugin/0 monitoring/nvidia-gpu-device-plugin cce_gpu_utilization gpu卡算力使用率 cce_gpu_memory_utilization gpu卡显存使用率 cce_gpu_encoder_utilization gpu卡编码使用率 cce_gpu_decoder_utilization gpu卡解码使用率 cce_gpu_utilization_process gpu各进程算力使用率 cce_gpu_memory_utilization_process gpu各进程显存使用率 cce_gpu_encoder_utilization_process gpu各进程编码使用率 cce_gpu_decoder_utilization_process gpu各进程解码使用率 cce_gpu_memory_used gpu显存使用量 cce_gpu_memory_total gpu显存总量 cce_gpu_memory_free gpu显存空闲量 cce_gpu_bar1_memory_used gpu bar1 内存使用量 cce_gpu_bar1_memory_total gpu bar1 内存总量 cce_gpu_clock gpu时钟频率 cce_gpu_memory_clock gpu显存频率 cce_gpu_graphics_clock gpu图形处理器频率 cce_gpu_video_clock gpu视频处理器频率 cce_gpu_temperature gpu温度 cce_gpu_power_usage gpu功率 cce_gpu_total_energy_consumption gpu总能耗 cce_gpu_pcie_link_bandwidth gpu pcie 带宽 cce_gpu_nvlink_bandwidth gpu nvlink 带宽 cce_gpu_pcie_throughput_rx gpu pcie 接收带宽 cce_gpu_pcie_throughput_tx gpu pcie 发送带宽 cce_gpu_nvlink_utilization_counter_rx gpu nvlink 接收带宽 cce_gpu_nvlink_utilization_counter_tx gpu nvlink 发送带宽 cce_gpu_retired_pages_sbe gpu 单比特错误隔离页数量 cce_gpu_retired_pages_dbe gpu 双比特错误隔离页数量 xgpu_memory_total xgpu显存总量 xgpu_memory_used xgpu显存使用量 xgpu_core_percentage_total xgpu算力总量 xgpu_core_percentage_used xgpu算力使用量 gpu_schedule_policy gpu模式分成0、1、2三种:0为显存隔离算力共享模式;1为显存算力隔离模式;2为默认模式表示当前卡还没被用于xgpu设备分配。 xgpu_device_health xgpu设备的健康情况。0表示xgpu设备为健康状态,1表示为非健康状态。 serviceMonitor/monitoring/prometheus-server/0 prometheus-server prometheus_build_info Prometheus构建信息 prometheus_engine_query_duration_seconds 查询时间 prometheus_engine_query_duration_seconds_count 查询次数 prometheus_sd_discovered_targets 各个 job 发现的采集目标数 prometheus_remote_storage_bytes_total 发送字节数 prometheus_remote_storage_enqueue_retries_total 入队列重试次数 prometheus_remote_storage_highest_timestamp_in_seconds 存储在WAL中的任何样本的最大时间戳 prometheus_remote_storage_queue_highest_sent_timestamp_seconds 远程写入成功发送的最大时间戳 prometheus_remote_storage_samples_dropped_total 远程写丢弃sample数量 prometheus_remote_storage_samples_failed_total 远程写失败sample数量 prometheus_remote_storage_samples_in_total 远程写写入sample数量 prometheus_remote_storage_samples_pending 远程写pending sample 数量 prometheus_remote_storage_samples_retried_total 远程写重试sample数量 prometheus_remote_storage_samples_total 远程写sample总数 prometheus_remote_storage_shard_capacity 用于并行发送到远程存储的队列中每个分片的容量 prometheus_remote_storage_shards 当前用于并行发送到远程存储的分片数 prometheus_remote_storage_shards_desired 分片队列期望基于输入样本和输出样本的比率运行的分片数 prometheus_remote_storage_shards_max 可用于并行发送到远程存储的分片数的最大值 prometheus_remote_storage_shards_min 可用于并行发送到远程存储的分片数的最小值 prometheus_tsdb_wal_segment_current TSDB当前正在写入的WAL段索引 prometheus_tsdb_head_chunks head中保存的chunk数量 prometheus_tsdb_head_series head中保存的series数量 prometheus_tsdb_head_samples_appended_total head中添加的samples数量 prometheus_wal_watcher_current_segment 每个远程写入实例当前正在读取的WAL段文件 prometheus_target_interval_length_seconds 抓取时间间隔 prometheus_target_interval_length_seconds_count 抓取时间间隔count prometheus_target_interval_length_seconds_sum 抓取时间间隔sum prometheus_target_scrapes_exceeded_body_size_limit_total 采集body大小超限次数 prometheus_target_scrapes_exceeded_sample_limit_total 采集sample超限次数 prometheus_target_scrapes_sample_duplicate_timestamp_total 时间戳重复Samples数量 prometheus_target_scrapes_sample_out_of_bounds_total 时间戳超限Samples数量 prometheus_target_scrapes_sample_out_of_order_total 乱序Samples数量 prometheus_target_sync_length_seconds 同步scrape pool的间隔 prometheus_target_sync_length_seconds_count 同步scrape pool的间隔count prometheus_target_sync_length_seconds_sum 同步scrape pool的间隔sum promhttp_metric_handler_requests_in_flight 当前正在处理的metrics数量 promhttp_metric_handler_requests_total metrics处理次数 go_goroutines 协程个数 podMonitor/monitoring/virtual-kubelet-pods/0 monitoring/virtual-kubelet-pods container_cpu_load_average_10s 容器过去10秒内的CPU负载的平均值 container_cpu_system_seconds_total 容器系统CPU总时长 container_cpu_usage_seconds_total 容器在所有CPU内核上的累积占用时间 container_cpu_user_seconds_total 容器用户CPU总时长 container_cpu_cfs_periods_total 容器已经执行的CPU时间周期数 container_cpu_cfs_throttled_periods_total 容器被限流的CPU时间周期数 container_cpu_cfs_throttled_seconds_total 容器被限流的CPU时间 container_fs_inodes_free 文件系统的可用inode数量 container_fs_usage_bytes 文件系统的使用量 container_fs_inodes_total 文件系统的总计inode数量 container_fs_io_current 磁盘/文件系统当前正在进行的 I/O 数量 container_fs_io_time_seconds_total 磁盘/文件系统花费在 I/O 上的累计秒数 container_fs_io_time_weighted_seconds_total 磁盘/文件系统累积加权 I/O 时间 container_fs_limit_bytes 容器可以使用的磁盘/文件系统总量 container_fs_reads_bytes_total 容器累积读取磁盘/文件系统数据的总量 container_fs_read_seconds_total 容器累积读取磁盘/文件系统数据的秒数 container_fs_reads_merged_total 容器合并读取磁盘/文件系统的累积计数 container_fs_reads_total 容器已完成读取磁盘/文件系统的累积计数 container_fs_sector_reads_total 容器已完成扇区读取磁盘/文件系统的累积计数 container_fs_sector_writes_total 容器已完成扇区写入磁盘/文件系统的累积计数 container_fs_writes_bytes_total 容器累积写入磁盘/文件系统数据的总量 container_fs_write_seconds_total 容器累计写入磁盘/文件系统的秒数 container_fs_writes_merged_total 容器合并写入磁盘/文件系统的累积计数 container_fs_writes_total 容器已完成写入磁盘/文件系统的累积计数 container_blkio_device_usage_total 容器区分IO操作对磁盘的使用总量 container_memory_failures_total 容器内存分配失败的累积计数 container_memory_failcnt 容器内存使用达到限制的次数 container_memory_cache 容器总页缓存内存 container_memory_mapped_file 容器内存映射文件的大小 container_memory_max_usage_bytes 容器历史最大内存使用量 container_memory_rss 容器常驻内存集的大小 container_memory_swap 容器虚拟内存使用量 container_memory_usage_bytes 容器当前的内存使用量 container_memory_working_set_bytes 容器工作集内存使用量 container_network_receive_bytes_total 容器网络累积接收数据总量 container_network_receive_errors_total 接收时遇到的错误累积计数 container_network_receive_packets_dropped_total 接收时丢弃的数据包的累积计数 container_network_receive_packets_total 接收数据包的累积计数 container_network_transmit_bytes_total 容器网络累积传输数据总量 container_network_transmit_errors_total 传输时遇到的错误累积计数 container_network_transmit_packets_dropped_total 传输时丢弃的数据包的累积计数 container_network_transmit_packets_total 传输数据包的累积计数 container_processes 容器当前运行的进程数 container_sockets 容器当前打开套接字的个数 container_file_descriptors 容器当前打开文件描述符的个数 container_threads 容器内当前运行的线程数 container_threads_max 容器内允许运行的最大线程数 container_ulimits_soft 容器内1号进程的软 ulimit 值。如果为-1,则无限制,优先级和nice除外 container_tasks_state 处于给定状态的任务数(sleeping,running,stopped,uninterruptible,or ioawaiting) container_spec_cpu_period 容器分配的CPU周期 container_spec_cpu_shares 容器分配的CPU份额 container_spec_cpu_quota 容器分配的CPU配额 container_spec_memory_limit_bytes 容器可以使用的总内存量限制 container_spec_memory_reservation_limit_bytes 容器可以使用的预留内存限制 container_spec_memory_swap_limit_bytes 容器可以使用的虚拟内存限制 container_start_time_seconds 容器已经运行的时间 container_last_seen 最近一次监控采集器感知到容器的时间 container_accelerator_memory_used_bytes 容器正在使用的GPU加速卡内存量 container_accelerator_memory_total_bytes 总GPU加速卡可用内存量 container_accelerator_duty_cycle GPU加速卡实际运行时间百分比 podMonitor/monitoring/everest-csi-controller/0 monitoring/everest-csi-controller everest_action_result_total action结果数量 everest_function_duration_seconds_bucket action耗时直方图bucket everest_function_duration_seconds_count action耗时直方图count everest_function_duration_seconds_sum action耗时直方图sum everest_function_duration_quantile_seconds action所需的时间分位数 node_volume_read_completed_total 读操作完成次数 node_volume_read_merged_total 读操作merged次数 node_volume_read_bytes_total 扇区读字节总数 node_volume_read_time_milliseconds_total 读操作总耗时 node_volume_write_completed_total 写操作完成次数 node_volume_write_merged_total 写操作merged次数 node_volume_write_bytes_total 扇区写字节总数 node_volume_write_time_milliseconds_total 写操作总耗时 node_volume_io_now 当前正在进行的I/O次数 node_volume_io_time_seconds_total IO操作总耗时 node_volume_capacity_bytes_available 可用容量 node_volume_capacity_bytes_total 总容量 node_volume_capacity_bytes_used 已用容量 node_volume_inodes_available 可用inode node_volume_inodes_total 总inode node_volume_inodes_used 已用inode node_volume_read_transmissions_total 读取传输次数 node_volume_read_timeouts_total 读取超时次数 node_volume_read_sent_bytes_total 读取字节数 node_volume_read_queue_time_milliseconds_total 读取队列等待耗时 node_volume_read_rtt_time_milliseconds_total 读取rtt时长 node_volume_write_transmissions_total 写入传输次数 node_volume_write_timeouts_total 写入超时次数 node_volume_write_queue_time_milliseconds_total 写入队列等待耗时 node_volume_write_rtt_time_milliseconds_total 写入rtt时长 node_volume_localvolume_stats_capacity_bytes 本地存储容量 node_volume_localvolume_stats_available_bytes 本地存储可用量 node_volume_localvolume_stats_used_bytes 本地存储已用量 node_volume_localvolume_stats_inodes 本地存储inodes数量 node_volume_localvolume_stats_inodes_used 本地存储inodes已用量 podMonitor/monitoring/nginx-ingress-controller/0 monitoring/nginx-ingress-controller nginx_ingress_controller_bytes_sent 发送到客户端的字节数 nginx_ingress_controller_connect_duration_seconds 与上游服务器建立连接所花费的时间 nginx_ingress_controller_header_duration_seconds 从上游服务器接收第一个报头所花费的时间 nginx_ingress_controller_ingress_upstream_latency_seconds 上行服务延迟 nginx_ingress_controller_request_duration_seconds 请求处理时间(以毫秒为单位) nginx_ingress_controller_request_size 请求长度(包括请求行、请求头和请求体长度) nginx_ingress_controller_requests Nginx Ingress Controller自启动以来处理的所有HTTP请求的总数 nginx_ingress_controller_response_duration_seconds 从上游服务器接收响应所花费的时间 nginx_ingress_controller_response_size 响应长度(包括请求行、头和请求体长度) nginx_ingress_controller_nginx_process_connections 当前处于活动、读取、写入、等待状态,每种状态各自的客户端连接数 nginx_ingress_controller_nginx_process_connections_total 自启动以来处于接受、已处理状态,每种状态各自的客户端连接数 nginx_ingress_controller_nginx_process_cpu_seconds_total Nginx进程消耗的CPU时间总量(以秒为单位) nginx_ingress_controller_nginx_process_num_procs 进程数 nginx_ingress_controller_nginx_process_oldest_start_time_seconds 自1970/01/01以来的开始时间(以秒为单位) nginx_ingress_controller_nginx_process_read_bytes_total 读取的字节数 nginx_ingress_controller_nginx_process_requests_total 自启动以来,Nginx处理的请求总数 nginx_ingress_controller_nginx_process_resident_memory_bytes 进程的常驻内存使用量,即实际占用的物理内存大小 nginx_ingress_controller_nginx_process_virtual_memory_bytes 进程的虚拟内存使用量,即分配给进程的总内存大小,包括实际物理内存和虚拟交换空间 nginx_ingress_controller_nginx_process_write_bytes_total Nginx进程向磁盘或其他长期存储设备写入的数据量 nginx_ingress_controller_build_info 记录Nginx Ingress Controller的构建信息,包括版本号、编译时间等 nginx_ingress_controller_check_success Nginx Ingress Controller的健康检查结果。1为正常,0为异常 nginx_ingress_controller_config_hash 运行配置的哈希值 nginx_ingress_controller_config_last_reload_successful Nginx Ingress Controller的配置重新加载是否成功 nginx_ingress_controller_config_last_reload_successful_timestamp_seconds Nginx Ingress Controller最后一次配置重新加载是否成功的时间戳 nginx_ingress_controller_ssl_certificate_info Nginx Ingress Controller的证书信息 nginx_ingress_controller_success Nginx Ingress Controller的重新加载操作的累计次数 nginx_ingress_controller_orphan_ingress 入口孤立状态,1 表示孤立。0 表示正常。“namespace”为标识入口命名空间的字符串,“ingress”表示入口名称,“type”表示孤立类型 为“no-service”'或 “no-endpoint”。 nginx_ingress_controller_admission_config_size Admission准入控制器的配置大小 nginx_ingress_controller_admission_render_duration Admission准入控制器配置渲染所花费的时间 nginx_ingress_controller_admission_render_ingresses Admission准入控制器配置渲染的入口长度 nginx_ingress_controller_admission_roundtrip_duration Admission准入控制器处理新事件所花费的时间 nginx_ingress_controller_admission_tested_duration Admission准入控制器测试所花费的时间 nginx_ingress_controller_admission_tested_ingresses Admission准入控制器测试的入口长度 父主题: 指标总览
  • 基础指标:node-exporter指标 介绍通过中间件Exporter上报到AOM的node-exporter指标的类别、名称、含义等信息。 表1 CCE/自建K8s集群容器指标 Job名称 指标 指标含义 node-exporter node_filesystem_size_bytes 挂载的文件系统占用空间 node_filesystem_readonly 只读挂载的文件系统 node_filesystem_free_bytes 挂载的文件系统剩余空间 node_filesystem_avail_bytes 挂载的文件系统可用空间 node_cpu_seconds_total 节点CPU时间 node_network_receive_bytes_total 累积接收数据总量 node_network_receive_errs_total 接收时遇到的错误累积计数 node_network_transmit_bytes_total 累积传输数据总量 node_network_receive_packets_total 接收数据包的累积计数 node_network_transmit_drop_total 传输时丢弃的累积计数 node_network_transmit_errs_total 传输时遇到的错误累积计数 node_network_up 网卡的状态 node_network_transmit_packets_total 传输数据包的累积计数 node_network_receive_drop_total 接收时丢弃的累积计数 go_gc_duration_seconds 数据来自调用debug.ReadG CS tats(),调用该函数时,会将传入参数GCStats结构体的PauseQuantile字段设置为5,这样函数将会返回最小、25%、50%、75% 和最大,这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。 node_load5 节点5分钟CPU负载 node_filefd_allocated 已分配的文件描述符 node_exporter_build_info NodeExporter构建信息 node_disk_written_bytes_total 写入成功的字节总数 node_disk_writes_completed_total 写入完成的次数 node_disk_write_time_seconds_total 写入花费的总时长 node_nf_conntrack_entries 链接状态跟踪表分配的数量 node_nf_conntrack_entries_limit 链接状态跟踪表总量 node_processes_max_processes PID限制值 node_processes_pids PID个数 node_sockstat_TCP_alloc 已分配的TCP套接字数量 node_sockstat_TCP_inuse 正在使用的TCP套接字数量 node_sockstat_TCP_tw 等待关闭的TCP连接数 node_timex_offset_seconds 时钟时间偏移 node_timex_sync_status 节点时钟同步状态 node_uname_info 节点uname信息 node_vmstat_pgfault /proc/vmstat中的pgfault node_vmstat_pgmajfault /proc/vmstat中的pgmajfault node_vmstat_pgpgin /proc/vmstat中的pgpgin node_vmstat_pgpgout /proc/vmstat中的pgpgout node_disk_reads_completed_total 读取完成的次数 node_disk_read_time_seconds_total 读取花费的总时长 process_cpu_seconds_total 该指标计算使用到utime(Go进程执行在用户态模式下的滴答数)和stime(Go进程执行在内核态时候的滴答数,例如系统调用时),参数的单位为jiffies,jiffy描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz(每秒滴答数)得到就是操作系统运行该进程的总时间(以秒为单位)。 node_disk_read_bytes_total 读取成功的字节总数 node_disk_io_time_weighted_seconds_total 执行I/O所花费的加权秒数 node_disk_io_time_seconds_total I/O总耗时 node_disk_io_now 当前运行的I/O数量 node_context_switches_total 上下文切换次数 node_boot_time_seconds 节点开机时间 process_resident_memory_bytes 即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。 node_intr_total 节点中断总数 node_load1 节点1分钟CPU负载 go_goroutines 通过runtime.NumGoroutine()调用获取,基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改,因此最后会检查计算的值是否小于1,如果小于1,那么返回1。 scrape_duration_seconds 采集scrape target花费的时间 node_load15 节点15分钟CPU负载 scrape_samples_post_metric_relabeling metric被重设标签后,剩余sample数量 node_netstat_Tcp_PassiveOpens 从LISTEN 状态直接转换到SYN-RCVD 状态的TCP连接数 scrape_samples_scraped scrape target暴露的sample数量 node_netstat_Tcp_CurrEstab 当前状态为ESTABLISHED 或CLOSE-WAIT 的TCP 连接数 scrape_series_added scrape target新增加的系列数 node_netstat_Tcp_ActiveOpens 从CLOSED 状态直接转换到SYN-SENT 状态的TCP连接数 node_memory_MemTotal_bytes 节点内存总量 node_memory_MemFree_bytes 节点空闲内存 node_memory_MemAvailable_bytes 节点可用内存 node_memory_Cached_bytes 节点页面缓存中的内存 up scrape target的状态 node_memory_Buffers_bytes 节点缓冲区的内存 父主题: 指标总览
  • 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 label_quantity Long 溯源码数量 product_quantity Long 商品数量 状态码: 401 表4 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:1 最大长度:36 error_msg String 错误描述 最小长度:1 最大长度:512 状态码: 403 表5 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:1 最大长度:36 error_msg String 错误描述 最小长度:1 最大长度:512 状态码: 500 表6 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:1 最大长度:100 error_msg String 错误描述 最小长度:1 最大长度:100
  • 资源停止服务或逾期释放说明 客户在华为云购买产品后,如果没有及时续费或充值,将进入宽限期。如宽限期满仍未续费或充值,将进入保留期。在保留期内资源将不能正常使用。保留期到期仍未续费或充值,存储在资源中的数据将被删除、云服务资源将被释放。 宽限期是指客户的包年/包月资源到期未续订或按需资源欠费时,华为云提供给客户进行续费与充值的时间,宽限期内该资源可以正常使用。华为云将会通过邮件、短信等方式向您发送提醒,提醒您续费或充值。 保留期是指宽限期到期后客户的包年/包月资源仍未续订或按需资源仍未缴清欠款,将进入保留期。保留期内该资源不能正常使用,但对客户存储在该资源中的数据仍予以保留。华为云将会通过邮件、短信等方式向您发送提醒,提醒您续费或充值。 宽限期和保留期的详细说明请参见宽限期保留期。 父主题: 总览说明
  • 如何使用快捷导航? “快捷导航”模块包含了“服务搜索”和“我的导航”功能,还具有支持服务链接与自定义链接的添加功能,相比较之前,更加实用。 成功登录华为云。 选择“总览”页签,在“快捷导航”模块,进行服务搜索和添加链接操作。 服务搜索:在服务搜索框,可输入关键词搜索服务,点击服务名进行跳转。 添加服务链接:点击“”,打开“添加”窗口,在“添加云服务”处,搜索服务,点击图标“”,当图标变为“”时,完成添加。 添加自定义链接:点击“”,打开“添加”窗口,在“自定义添加”处,添加主 域名 是huaweicloud.com或huawei.com的链接和名称,点击“添加按钮”,完成添加。 快捷导航链接上限值50个,若需继续添加,请删除已有链接。 删除链接:点击服务后面 “”,完成删除。
  • 基础指标:IoTDA指标 介绍IoTDA服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。 表1 IoTDA服务监控指标 指标类别 指标 指标名称 指标含义 取值范围 单位 设备总数 iotda_device_status_onlineCount 在线设备数 统计租户在当前实例/资源空间下的在线的设备数量 ≥0 个 iotda_device_status_totalCount 设备总数 统计租户在当前实例/资源空间下的总的设备数量 ≥0 个 iotda_device_status_offlineCount 离线设备数 统计租户在当前实例/资源空间下的离线的设备数量 ≥0 个 iotda_device_status_abnormalCount 异常设备数 统计租户在当前实例/资源空间下的异常的设备数量 ≥0 个 iotda_device_status_inactiveCount 未激活设备数 统计租户在当前实例/资源空间下的未激活的设备数量 ≥0 个 NB数据上报数 iotda_south_dataReport_totalCount NB数据上报总数 统计当前实例/资源空间下NB数据上报总次数 ≥0 次 iotda_south_dataReport_successCount NB数据上报成功次数 统计当前实例/资源空间下NB数据上报成功次数 ≥0 次 iotda_south_dataReport_failedCount NB数据上报失败次数 统计当前实例/资源空间下NB数据上报失败次数 ≥0 次 MQTT事件上报数 iotda_south_eventUp_totalCount MQTT事件上报总数 统计当前实例/资源空间下MQTT事件上报总数 ≥0 次 iotda_south_eventUp_successCount MQTT事件上报成功次数 统计当前实例/资源空间下MQTT事件上报成功次数 ≥0 次 iotda_south_eventUp_failedCount MQTT事件上报失败次数 统计当前实例/资源空间下MQTT事件上报失败次数 ≥0 次 MQTT属性上报数 iotda_south_propertiesReport_totalCount MQTT属性上报总数 统计当前实例/资源空间下MQTT属性上报总数 ≥0 次 iotda_south_propertiesReport_successCount MQTT属性上报成功次数 统计当前实例/资源空间下MQTT属性上报成功次数 ≥0 次 iotda_south_propertiesReport_failedCount MQTT属性上报失败次数 统计当前实例/资源空间下MQTT属性上报失败次数 ≥0 次 MQTT消息上报数 iotda_south_messageUp_totalCount MQTT消息上报总数 统计当前实例/资源空间下MQTT消息上报总数 ≥0 次 iotda_south_messageUp_successCount MQTT消息上报成功次数 统计当前实例/资源空间下MQTT消息上报成功次数 ≥0 次 iotda_south_messageUp_failedCount MQTT消息上报失败次数 统计当前实例/资源空间下MQTT消息上报失败次数 ≥0 次 AMQP流转次数 iotda_amqp_forwarding_totalCount AMQP流转次数 统计当前实例/资源空间下AMQP流转次数 ≥0 次 iotda_amqp_forwarding_successCount AMQP流转成功次数 统计当前实例/资源空间下AMQP流转成功次数 ≥0 次 iotda_amqp_forwarding_failedCount AMQP流转失败次数 统计当前实例/资源空间下AMQP流转失败次数 ≥0 次 FunctionGraph流转次数 iotda_functionGraph_forwarding_totalCount FunctionGraph流转次数 统计当前实例/资源空间下FunctionGraph流转次数 ≥0 次 iotda_functionGraph_forwarding_successCount FunctionGraph流转成功次数 统计当前实例/资源空间下FunctionGraph流转成功次数 ≥0 次 iotda_functionGraph_forwarding_failedCount FunctionGraph流转失败次数 统计当前实例/资源空间下FunctionGraph流转失败次数 ≥0 次 MRS Kafka流转次数 iotda_mrsKafka_forwarding_totalCount MRS Kafka流转次数 统计当前实例/资源空间下MRS Kafka流转次数 ≥0 次 iotda_mrsKafka_forwarding_successCount MRS Kafka流转成功次数 统计当前实例/资源空间下MRS Kafka流转成功次数 ≥0 次 iotda_mrsKafka_forwarding_failedCount MRS Kafka流转失败次数 统计当前实例/资源空间下MRS Kafka流转失败次数 ≥0 次 MQTT流转次数 iotda_mqtt_forwarding_totalCount Mqtt流转次数 统计当前实例/资源空间下MQTT流转次数 ≥0 次 iotda_mqtt_forwarding_successCount Mqtt流转成功次数 统计当前实例/资源空间下MQTT流转成功次数 ≥0 次 iotda_mqtt_forwarding_failedCount Mqtt流转失败次数 统计当前实例/资源空间下MQTT流转失败次数 ≥0 次 MySql流转次数 iotda_mysql_forwarding_totalCount MySql流转次数 统计当前实例/资源空间下MySql流转次数 ≥0 次 iotda_mysql_forwarding_successCount MySql流转成功次数 统计当前实例/资源空间下MySql流转成功次数 ≥0 次 iotda_mysql_forwarding_failedCount MySql流转失败次数 统计当前实例/资源空间下MySql流转失败次数 ≥0 次 InfluxDB流转次数 iotda_influxDB_forwarding_totalCount InfluxDB流转次数 统计当前实例/资源空间下InfluxDB流转次数 ≥0 次 iotda_influxDB_forwarding_successCount InfluxDB流转成功次数 统计当前实例/资源空间下InfluxDB流转成功次数 ≥0 次 iotda_influxDB_forwarding_failedCount InfluxDB流转失败次数 统计当前实例/资源空间下InfluxDB流转失败次数 ≥0 次 HTTP推送流转次数 iotda_http_forwarding_totalCount HTTP推送流转次数 统计当前实例/资源空间下HTTP推送流转次数 ≥0 次 iotda_http_forwarding_successCount HTTP推送流转成功次数 统计当前实例/资源空间下HTTP推送流转成功次数 ≥0 次 iotda_http_forwarding_failedCount HTTP推送流转失败次数 统计当前实例/资源空间下HTTP推送流转失败次数 ≥0 次 OBS流转次数 iotda_obs_forwarding_totalCount OBS流转次数 统计当前实例/资源空间下OBS流转次数 ≥0 次 iotda_obs_forwarding_successCount OBS流转成功次数 统计当前实例/资源空间下OBS流转成功次数 ≥0 次 iotda_obs_forwarding_failedCount OBS流转失败次数 统计当前实例/资源空间下OBS流转失败次数 ≥0 次 DMS Kafka流转次数 iotda_dmsKafka_forwarding_totalCount DMS Kafka流转次数 统计当前实例/资源空间下DMS Kafka流转次数 ≥0 次 iotda_dmsKafka_forwarding_successCount DMS Kafka流转成功次数 统计当前实例/资源空间下DMS Kafka流转成功次数 ≥0 次 iotda_dmsKafka_forwarding_failedCount DMS Kafka流转失败次数 统计当前实例/资源空间下DMS Kafka流转失败次数 ≥0 次 DIS流转次数 iotda_dis_forwarding_totalCount DIS流转次数 统计当前实例/资源空间下DIS流转次数 ≥0 次 iotda_dis_forwarding_successCount DIS流转成功次数 统计当前实例/资源空间下DIS流转成功次数 ≥0 次 iotda_dis_forwarding_failedCount DIS流转失败次数 统计当前实例/资源空间下DIS流转失败次数 ≥0 次 ROMA流转次数 iotda_roma_forwarding_totalCount ROMA流转次数 统计当前实例/资源空间下ROMA流转次数 ≥0 次 iotda_roma_forwarding_successCount ROMA流转成功次数 统计当前实例/资源空间下ROMA流转成功次数 ≥0 次 iotda_roma_forwarding_failedCount ROMA流转失败次数 统计当前实例/资源空间下ROMA流转失败次数 ≥0 次 LTS流转次数 iotda_lts_forwarding_totalCount LTS流转次数 统计当前实例/资源空间下LTS流转次数 ≥0 次 iotda_lts_forwarding_successCount LTS流转成功次数 统计当前实例/资源空间下LTS流转成功次数 ≥0 次 iotda_lts_forwarding_failedCount LTS流转失败次数 统计当前实例/资源空间下LTS流转失败次数 ≥0 次 查询设备影子 iotda_query_shadow_totalCount 查询设备影子总数 统计当前实例/资源空间下查询设备影子总数 ≥0 次 iotda_query_shadow_successCount 查询设备影子成功数 统计当前实例/资源空间下查询设备影子成功数 ≥0 次 iotda_query_shadow_failedCount 查询设备影子失败数 统计当前实例/资源空间下查询设备影子失败数 ≥0 次 消息下发 iotda_message_down_totalCount 消息下发总数 统计当前实例/资源空间下消息下发总数 ≥0 次 iotda_message_down_successCount 消息下发成功数 统计当前实例/资源空间下消息下发成功数 ≥0 次 iotda_message_down_failedCount 消息下发失败数 统计当前实例/资源空间下消息下发失败数 ≥0 次 属性设置 iotda_properties_set_totalCount 属性设置总数 统计当前实例/资源空间下属性设置总数 ≥0 次 iotda_properties_set_successCount 属性设置成功数 统计当前实例/资源空间下属性设置成功数 ≥0 次 iotda_properties_set_failedCount 属性设置失败数 统计当前实例/资源空间下属性设置失败数 ≥0 次 属性查询 iotda_properties_query_totalCount 属性查询总数 统计当前实例/资源空间下属性查询总数 ≥0 次 iotda_properties_query_successCount 属性查询成功数 统计当前实例/资源空间下属性查询成功数 ≥0 次 iotda_properties_query_failedCount 属性查询失败数 统计当前实例/资源空间下属性查询失败数 ≥0 次 命令数 iotda_command_totalCount 命令总数 统计当前实例/资源空间下命令总数 ≥0 次 iotda_command_successCount 命令成功数 统计当前实例/资源空间下命令成功数 ≥0 次 iotda_command_failedCount 命令失败数 统计当前实例/资源空间下命令失败数 ≥0 次 流控数据 iotda_flowcontrol_north_failedCount API调用流控失败数 统计当前实例下调用API流控失败次数 ≥0 次 iotda_flowcontrol_south_failedCount 南向调用流控失败数 统计当前实例下数据上报流控失败次数 ≥0 次 iotda_flowcontrol_forwarding_failedCount 流转流控失败数 统计当前实例下流转流控失败数 ≥0 次 同时在线设备数 iotda_max_online_devices_totalCount 每天最大同时在线设备数 统计当前实例下每天最大同时在线设备数 ≥0 个 iotda_max_online_devices_percent 最大同时在线设备数百分比 统计当前实例下每天最大同时在线设备数百分比 0~100 百分比(%) 父主题: 指标总览
  • 请求示例 查询项目id为project_id,时间从2022-04-21 00:00:00到2022-04-21 14:35:36的安全统计带宽数据 GET https://{Endpoint}/v1/{project_id}/waf/overviews/bandwidth/timeline?enterprise_project_id=0&from=1650470400196&to=1650522936196
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 [数组元素] Array of BandwidthStatisticsTimelineItem objects 带宽时间线统计数据,包括带宽(BANDW IDT H)、入带宽(IN_BANDWIDTH)以及出带宽(OUT_BANDWIDTH)统计数据。 表5 BandwidthStatisticsTimelineItem 参数 参数类型 描述 key String 键值,其值包括带宽(BANDWIDTH)、入带宽(IN_BANDWIDTH)以及出带宽(OUT_BANDWIDTH) timeline Array of TimeLineItem objects 对应键值的时间线统计数据,包含两个字段,time字段值为时间点;num字段为time对应时间点与前一时间点间隔内的统计数值 表6 TimeLineItem 参数 参数类型 描述 time Long 时间点 num Integer time对应时间点与前一时间点间隔内的统计数值。 状态码: 400 表7 响应Body参数 参数 参数类型 描述 error_code String 错误码 error_msg String 错误信息 状态码: 401 表8 响应Body参数 参数 参数类型 描述 error_code String 错误码 error_msg String 错误信息 状态码: 500 表9 响应Body参数 参数 参数类型 描述 error_code String 错误码 error_msg String 错误信息