云服务器内容精选

  • TaurusDB标准版事件监控简介 事件监控提供了事件类型数据上报、查询和告警的功能。方便您将业务中的各类重要事件或对云资源的操作事件收集到 云监控服务 ,并在事件发生时进行告警。 事件即 云监控 服务保存并监控的资源的关键操作,您可以通过“事件”了解到谁在什么时间对系统哪些资源做了什么操作,如重置数据库管理员密码、修改备份策略等。 事件监控默认开通,您可以在事件监控中查看系统事件和自定义事件的监控详情,目前支持的系统事件请参见TaurusDB标准版事件监控支持的事件说明。 事件监控为您提供上报自定义事件的接口,方便您将业务产生的异常事件或重要变更事件采集上报到云监控服务。 上报自定义事件请参见上报事件。 父主题: 事件监控
  • 告警策略 TaurusDB标准版默认对以下指标开启自动告警:CPU使用率(rds001_cpu_util)、磁盘利用率(rds039_disk_util)、连接数使用率(rds072_conn_usage)。更多监控指标,请参考TaurusDB标准版实例支持的监控指标。 自动告警初始化时,绑定的手机号与邮箱为主账号的手机号和邮箱。 自动告警开启后,新实例将自动加入到告警监控资源列表中。超过既定阈值时触发告警,并通过 SMN 发送通知给绑定的手机或邮箱。 如需针对已有实例新增告警监控,或者将指定实例移出告警监控资源列表,可通过云监控服务( CES )进行调整,详情请参见修改告警规则。
  • 操作场景 TaurusDB标准版支持针对CPU、磁盘使用率等重要指标,开启自动告警功能。开启后,新实例将自动加入到CES告警监控列表。超过既定阈值时触发告警,并通过SMN发送通知给绑定的手机或邮箱。 查看或修改自动告警所监控的实例,可跳转至云监控服务(CES)进行查看或调整,详情请参见修改告警规则。 查看或修改自动告警所绑定的手机号和邮箱,可通过云监控服务(CES)的告警规则详情页跳转至 消息通知 服务(SMN)进行查看或调整,详情请参见添加订阅。
  • 操作步骤 查询所有用户的资源限额和资源实时使用情况。 1 SELECT * FROM PG_TOTAL_USER_RESOURCE_INFO; 得到的结果视图如下: username | used_memory | total_memory | used_cpu | total_cpu | used_space | total_space | used_temp_space | total_temp_space | used_spill_space | total_spill_space | read_kbytes | write_kbytes | read_counts | write_counts | read_speed | write_speed | send_speed | recv_speed -----------------------+-------------+--------------+----------+-----------+------------+-------------+-----------------+------------------+------------------+-------------------+-------------+--------------+-------------+--------------+------------+-------------+------------+------------ perfadm | 0 | 0 | 0 | 0 | 0 | -1 | 0 | -1 | 0 | -1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 usern | 0 | 17250 | 0 | 48 | 0 | -1 | 0 | -1 | 0 | -1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 (2 rows) 其中,IO资源监控字段(read_kbytes、write_kbytes、read_counts、write_counts、read_speed和write_speed)需要在GUC参数enable_user_metric_persistent开启时才有监控数据。 所查各字段说明详见PG_TOTAL_USER_RESOURCE_INFO 。 查询具体某个用户的资源限额和资源实时使用情况。 1 SELECT * FROM GS_WLM_USER_RESOURCE_INFO('username'); 查询结果如下: userid | used_memory | total_memory | used_cpu | total_cpu | used_space | total_space | used_temp_space | total_temp_space | used_spill_space | total_spill_space | read_kbytes | write_kbytes | read_counts | write_counts | read_speed | write_speed | send_speed | recv_speed --------+-------------+--------------+----------+-----------+------------+-------------+-----------------+------------------+------------------+-------------------+-------------+--------------+-------------+--------------+------------+-------------+------------+------------ 16407 | 18 | 1655 | 6 | 19 | 13787176 | -1 | 0 | -1 | 0 | -1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 (1 row) 查询所有用户的资源限额和资源历史使用情况。 1 SELECT * FROM GS_WLM_USER_RESOURCE_HISTORY; 查询结果如下: username | timestamp | used_memory | total_memory | used_cpu | total_cpu | used_space | total_space | used_temp_space | total_temp_space | used_spill_space | total_spill_space | read_kbytes | write_kbytes | read_counts | write_counts | read_speed | write_speed | send_speed | recv_speed -----------------------+-------------------------------+-------------+--------------+----------+-----------+------------+-------------+-----------------+------------------+------------------+-------------------+-------------+--------------+-------------+--------------+-------------+-------------+------------+------------ usern | 2020-01-08 22:56:06.456855+08 | 0 | 17250 | 0 | 48 | 0 | -1 | 0 | -1 | 88349078 | -1 | 45680 | 34 | 5710 | 8 | 320 | 0 | 0 | 0 userg | 2020-01-08 22:56:06.458659+08 | 0 | 15525 | 33.48 | 48 | 0 | -1 | 0 | -1 | 110169581 | -1 | 17648 | 23 | 2206 | 5 | 123 | 0 | 0 | 0 userg1 | 2020-01-08 22:56:06.460252+08 | 0 | 13972 | 33.48 | 48 | 0 | -1 | 0 | -1 | 136106277 | -1 | 17648 | 23 | 2206 | 5 | 123 | 0 | 0 | 0 对于系统表GS_WLM_USER_RESOURCE_HISTORY,仅当GUC参数enable_user_metric_persistent开启时,才会定期将视图PG_TOTAL_USER_RESOURCE_INFO中的数据保存到历史表中。 所查各字段说明详见GS_WLM_USER_RESOURCE_HISTORY。
  • 注意事项 用户监控可以同时监控快慢车道(快车道管控简单作业,慢车道管控复杂作业)所有作业的CPU、IO和内存使用情况,不再受限于仅监控慢车道作业。 当前快车道作业内存和CPU不受控,在快车道运行作业占用资源较多情况下,可能出现已用资源大于资源限制的情况。 DN监控视图中,IO、内存和CPU显示的是本DN上资源池资源使用和资源限制信息。 CN监控视图中,IO、内存和CPU显示的是集群内所有DN资源池资源使用和资源限制的累积和。 DN每隔5s更新一次监控信息,CN每隔5s从DN收集一次用户监控信息,因为各实例单独更新/收集用户监控信息,因此各实例监控信息更新时间可能不一致。 辅助线程中每隔30s自动调用持久化函数,持久化用户监控数据,正常情况下不需要用户单独调用持久化函数持久化用户监控数据。 当用户数量较多,集群规模较大时,查询此类实时视图,因CN/DN间实时通信开销,会有一定的网络延时。 初始管理用户不进行资源监控。
  • 创建Dashboards查看指标 打开“DashBoards”,单击“New”,选择“New Dashboards”。 在New Dashboards界面,单击“Add a new panel”。 在New dashboard /Edit Panel界面,填写如下参数。 Data source:已配置Grafana数据源; Metric:指标名称,可参考表1、表2、表3获取想要查询的指标; Labels:填写过滤该指标的标签,请参考表4。 图10 创建Dashboards查看指标
  • 准备工作 ModelArts提供了集群视图、节点视图、用户视图、任务视图和任务详细视图这5个模板,这些模板在Grafana官方文档可以搜索下载,您导入模板配置Dashboards时,可直接使用。 表1 模板下载地址 模板名称 下载地址 集群视图 https://cnnorth4-modelarts-sdk.obs.cn-north-4.myhuaweicloud.com/metrics/grafana/dashboards/ModelArts-Cluster-View.json 节点视图 https://cnnorth4-modelarts-sdk.obs.cn-north-4.myhuaweicloud.com/metrics/grafana/dashboards/ModelArts-Node-View.json 用户视图 https://cnnorth4-modelarts-sdk.obs.cn-north-4.myhuaweicloud.com/metrics/grafana/dashboards/ModelArts-User-View.json 任务视图 https://cnnorth4-modelarts-sdk.obs.cn-north-4.myhuaweicloud.com/metrics/grafana/dashboards/ModelArts-Task-View.json 任务详细视图 https://cnnorth4-modelarts-sdk.obs.cn-north-4.myhuaweicloud.com/metrics/grafana/dashboards/ModelArts-Task-Detail-View.json
  • ModelArts Standard资源监控概述 为了满足用户对资源使用的监控诉求,ModelArts Standard提供了多种监控查看方式。 方式一:通过ModelArts Standard控制台查看 您在可通过ModelArts控制台的总览页或各模块资源监控页签查看监控指标。具体涉及以下几个方面: 通过ModelArts控制台的总览页查看,具体请参见通过ModelArts控制台查看监控指标。 Standard训练作业:用户在运行训练作业时,可以查看训练作业占用的CPU、GPU或NPU资源使用情况。具体请参见训练资源监控章节。 Standard在线服务:用户将模型部署为在线服务后,可以通过监控功能查看该推理服务的CPU、内存或GPU等资源使用统计信息和模型调用次数统计,具体参见查看推理服务详情章节。 方式二:通过 AOM 查看所有监控指标 ModelArts Standard上报的所有监控指标都保存在AOM中,当ModelArts控制台可以查看的指标不满足诉求时,用户可以通过AOM服务提供的指标消费和使用的能力来查看指标。设置指标阈值告警、告警上报等,都可以直接在AOM控制台操作。具体参见通过AOM控制台查看ModelArts所有监控指标。 方式三:通过Grafana查看所有监控指标 当AOM的监控模板不能满足用户诉求时,用户可以使用Grafana可视化工具来查看与分析监控指标。Grafana支持灵活而又复杂多样的监控视图和模板,为用户提供基于网页仪表面板的可视化监控效果,使用户更加直观地查看到实时资源使用情况。 将Grafana的数据源配置完成后,就可以通过Grafana查看AOM保存的所有ModelArts Standard的所有指标。具体参见使用Grafana查看AOM中的监控指标。 通过Grafana插件查看AOM中的监控指标的操作流程如下: 安装配置Grafana 安装配置Grafana有在Windows上安装配置Grafana、在Linux上安装配置Grafana和在Notebook上安装配置Grafana三种方式,请您根据实际情况选择。 配置Grafana数据源 配置仪表盘查看指标数据 父主题: ModelArts Standard资源监控
  • GPU指标 指标分类 指标名称 指标说明 单位 支持版本 采集方式 GPU指标 gpu_status 虚拟机上GPU健康状态。该指标是一个综合指标,0代表健康,1代表亚健康,2代表故障。 - 2.4.5 Linux: 通过调用GPU卡的libnvidia-ml.so.1库文件获取 Windows: 通过调用GPU卡的nvml.dll库文件获取 gpu_performance_state 该GPU的性能状态。 P0-P15、P32, P0表示最大性能状态,P15表示最小性能状态,P32表示状态未知。 - 2.4.1 gpu_power_draw 该GPU的功率。 W 2.4.5 gpu_temperature 该GPU的温度。 °C 2.4.5 gpu_usage_gpu 该GPU的算力使用率。 % 2.4.1 gpu_usage_mem 该GPU的显存使用率。 % 2.4.1 gpu_used_mem 该GPU的显存使用量。 MB 2.4.5 gpu_free_mem 该GPU的显存剩余量。 MB 2.4.5 gpu_usage_encoder 该GPU的编码能力使用率。 % 2.4.5 gpu_usage_decoder 该GPU的解码能力使用率。 % 2.4.5 gpu_graphics_clocks 该GPU的显卡(着色器)时钟频率。 MHz 2.4.5 gpu_sm_clocks 该GPU的流式处理器时钟频率。 MHz 2.4.5 gpu_mem_clock 该GPU的内存时钟频率。 MHz 2.4.5 gpu_video_clocks 该GPU的视频(包含编解码)时钟频率。 MHz 2.4.5 gpu_tx_throughput_pci 该GPU的出方向带宽。 MByte/s 2.4.5 gpu_rx_throughput_pci 该GPU的入方向带宽。 MByte/s 2.4.5 gpu_volatile_correctable 该GPU重置以来可纠正的ECC错误数量,每次重置后归0。 个 2.4.5 gpu_volatile_uncorrectable 该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。 个 2.4.5 gpu_aggregate_correctable 该GPU累计的可纠正ECC错误数量。 个 2.4.5 gpu_aggregate_uncorrectable 该GPU累计的不可纠正ECC错误数量。 个 2.4.5 gpu_retired_page_single_bit retired page single bit 错误数量,表示当前卡隔离的单比特页数。 个 2.4.5 gpu_retired_page_double_bit 错误数量,表示当前卡隔离的双比特页的数量。 个 2.4.5
  • 进程监控指标 指标 指标名称 指标说明 单位 支持版本 监控周期(原始指标) proc_pHashId_cpu (Agent)CPU使用率 进程消耗的CPU百分比,pHashId是(进程名+进程ID)的md5值。 采集方式(Linux):通过计算/proc/pid/stat的变化得出。 采集方式(Windows):通过Windows API GetProcessTimes获取进程CPU使用率。 % 2.4.1 1分钟 proc_pHashId_mem (Agent)内存使用率 进程消耗的内存百分比,pHashId是(进程名+进程ID)的md5值。 采集方式(Linux): RSS*PAGESIZE/MemTotal RSS: 通过获取/proc/pid/statm第二列得到 PAGESIZE: 通过命令getconf PAGESIZE获取 MemTotal:通过/proc/meminfo获取 采集方式(Windows):使用Windows API procGlobalMemoryStatusEx获取内存总量,通过GetProcessMemoryInfo获取内存已使用量,计算两者比值得到内存使用率。 % 2.4.1 1分钟 proc_pHashId_file (Agent)打开文件数 进程打开文件数,pHashId是(进程名+进程ID)的md5值。 采集方式(Linux):通过执行ls -l /proc/pid/fd 可以查看数量。 采集方式(Windows):暂不支持。 Count 2.4.1 1分钟 proc_running_count (Agent)运行中的进程数 该指标用于统计测量对象处于运行状态的进程数。 采集方式(Linux):通过统计 /proc/pid/status 中Status值获取每个进程的状态,进而统计各个状态进程总数。 采集方式(Windows):暂不支持。 无 2.4.1 1分钟 proc_idle_count (Agent)空闲进程数 该指标用于统计测量对象处于空闲状态的进程数。 采集方式(Linux):通过统计 /proc/pid/status 中Status值获取每个进程的状态,进而统计各个状态进程总数。 采集方式(Windows):暂不支持。 无 2.4.1 1分钟 proc_zombie_count (Agent)僵死进程数 该指标用于统计测量对象处于僵死状态的进程数。 采集方式(Linux):通过统计 /proc/pid/status 中Status值获取每个进程的状态,进而统计各个状态进程总数。 采集方式(Windows):暂不支持。 无 2.4.1 1分钟 proc_blocked_count (Agent)阻塞进程数 该指标用于统计测量对象被阻塞的进程数。 采集方式(Linux):通过统计 /proc/pid/status 中Status值获取每个进程的状态,进而统计各个状态进程总数。 采集方式(Windows):暂不支持。 无 2.4.1 1分钟 proc_sleeping_count (Agent)睡眠进程数 该指标用于统计测量对象处于睡眠状态的进程数。 采集方式(Linux):通过统计 /proc/pid/status 中Status值获取每个进程的状态,进而统计各个状态进程总数。 采集方式(Windows):暂不支持。 无 2.4.1 1分钟 proc_total_count (Agent)系统进程数 该指标用于统计测量对象的总进程数。 采集方式(Linux):通过统计 /proc/pid/status 中Status值获取每个进程的状态,进而统计各个状态进程总数。 采集方式(Windows):通过psapi.dll系统进程状态支持模块得到进程总数。 无 2.4.1 1分钟 proc_specified_count (Agent)指定进程数 该指标用于统计测量对象指定的进程数。 采集方式(Linux):通过统计 /proc/pid/status 中Status值获取每个进程的状态,进而统计各个状态进程总数。 采集方式(Windows):通过psapi.dll系统进程状态支持模块得到进程总数。 Count 2.4.1 1分钟
  • 操作系统监控指标: 网卡 指标 指标名称 指标说明 单位 支持版本 监控周期(原始指标) net_bitRecv (Agent)出网带宽 该指标用于统计测量对象网卡每秒发送的比特数。 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。 bit/s 2.4.1 1分钟 net_bitSent (Agent)入网带宽 该指标用于统计测量对象网卡每秒接收的比特数。 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。 bit/s 2.4.1 1分钟 net_packetRecv (Agent)网卡包接收速率 该指标用于统计测量对象网卡每秒接收的数据包数。 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。 Count/s 2.4.1 1分钟 net_packetSent (Agent)网卡包发送速率 该指标用于统计测量对象网卡每秒发送的数据包数。 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。 Count/s 2.4.1 1分钟 net_errin (Agent)接收误包率 该指标用于统计测量对象网卡每秒接收的错误数据包数量占所接收的数据包的比率。 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):暂不支持。 % 2.4.5 1分钟 net_errout (Agent)发送误包率 该指标用于统计测量对象网卡每秒发送的错误数据包数量占所发送的数据包的比率。 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):暂不支持。 % 2.4.5 1分钟 net_dropin (Agent)接收丢包率 该指标用于统计测量对象网卡每秒接收并已丢弃的数据包数量占所接收的数据包的比率 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):暂不支持。 % 2.4.5 1分钟 net_dropout (Agent)发送丢包率 该指标用于统计测量对象网卡每秒发送并已丢弃的数据包数量占所发送的数据包的比率。 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):暂不支持。 % 2.4.5 1分钟
  • 操作系统监控指标: TCP 指标 指标名称 指标说明 单位 支持版本 监控周期(原始指标) net_tcp_total (Agent) TCP 连接数总和 该指标用于统计测量对象所有状态的TCP连接数总和。 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 无 2.4.1 1分钟 net_tcp_established (Agent) ESTABLISHED状态的连接数量 该指标用于统计测量对象处于ESTABLISHED状态的TCP连接数量。 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 无 2.4.1 1分钟 net_tcp_sys_sent (Agent) TCP SYS_SENT状态的连接数量。 该指标用于统计测量对象处于请求连接状态的TCP连接数量。 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 无 2.4.5 1分钟 net_tcp_sys_recv (Agent) TCP SYS_RECV状态的连接数量。 该指标用于统计测量对象服务器端收到的请求连接的TCP数量。 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 无 2.4.5 1分钟 net_tcp_fin_wait1 (Agent) TCP FIN_WAIT1状态的连接数量。 该指标用于统计测量对象客户端主动关闭且没有收到服务端ACK的TCP连接数量。 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 无 2.4.5 1分钟 net_tcp_fin_wait2 (Agent) TCP FIN_WAIT2状态的连接数量。 该指标用于统计测量对象处于FIN_WAIT2状态的TCP连接数量。 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 无 2.4.5 1分钟 net_tcp_time_wait (Agent) TCP TIME_WAIT状态的连接数量。 该指标用于统计测量对象处于TIME_WAIT状态的TCP连接数量。 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 无 2.4.5 1分钟 net_tcp_close (Agent) TCP CLOSE状态的连接数量。 该指标用于统计测量对象关闭的或未打开的TCP连接数量。 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 无 2.4.5 1分钟 net_tcp_close_wait (Agent) TCP CLOSE_WAIT状态的连接数量。 该指标用于统计测量对象处于CLOSE_WAIT状态的TCP连接数量。 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 无 2.4.5 1分钟 net_tcp_last_ack (Agent) TCP LAST_ACK状态的连接数量。 该指标用于统计测量对象被动关闭等待ACK报文的TCP连接数量。 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 无 2.4.5 1分钟 net_tcp_listen (Agent) TCP LISTEN状态的连接数量。 该指标用于统计测量对象处于LISTEN状态的TCP连接数量。 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 无 2.4.5 1分钟 net_tcp_closing (Agent) TCP CLOSING状态的连接数量。 该指标用于统计测量对象处于服务端和客户端同时主动关闭状态的TCP连接数量。 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 无 2.4.5 1分钟 net_tcp_retrans (Agent) TCP重传率 该指标用于统计测量对象重新发送的报文数与总发送的报文数之间的比值。 采集方式(Linux):通过从/proc/net/snmp文件中获取对应的数据,计算采集周期内发送包数和重传包数的比值得出。 采集方式(Windows):重传率通过WindowsAPI GetTcpStatistics获取 % 2.4.5 1分钟
  • 操作系统监控指标: 文件系统 指标 指标名称 指标说明 单位 支持版本 监控周期(原始指标) disk_fs_rwstate (Agent)文件系统读写状态 该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1)。 采集方式(Linux):通过读取/proc/mounts中第四列文件系统挂载参数获得。 采集方式(Windows):暂不支持。 无 2.4.5 1分钟 disk_inodesTotal (Agent)inode空间大小 该指标用于统计测量对象当前磁盘的inode空间量。 采集方式(Linux):执行df -i命令,查看Inodes列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 无 2.4.5 1分钟 disk_inodesUsed (Agent)inode已使用空间 该指标用于统计测量对象当前磁盘已使用的inode空间量。 采集方式(Linux):执行df -i命令,查看IUsed列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 无 2.4.5 1分钟 disk_inodesUsedPercent (Agent)inode已使用占比 该指标用于统计测量对象当前磁盘已使用的inode占比。 采集方式(Linux):执行df -i命令,查看IUse%列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 % 2.4.1 1分钟
  • 操作系统监控指标: 磁盘IO 指标 指标名称 指标说明 单位 支持版本 监控周期(原始指标) disk_agt_read_bytes_rate (Agent)磁盘读速率 该指标用于统计每秒从测量对象读出数据量。 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第六列数据的变化得出磁盘读速率。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows): 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 高CPU情况下存在获取超时的现象,会导致无法获取监控数据。 Byte/s 2.4.5 1分钟 disk_agt_read_requests_rate (Agent)磁盘读操作速率 该指标用于统计每秒从测量对象读取数据的请求次数。 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第四列数据的变化得出磁盘读操作速率。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows): 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 高CPU情况下存在获取超时的现象,会导致无法获取监控数据。 Request/s 2.4.5 1分钟 disk_agt_write_bytes_rate (Agent)磁盘写速率 该指标用于统计每秒写到测量对象的数据量。 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十列数据的变化得出磁盘写速率。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows): 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 高CPU情况下存在获取超时的现象,会导致无法获取监控数据。 Byte/s 2.4.5 1分钟 disk_agt_write_requests_rate (Agent)磁盘写操作速率 该指标用于统计每秒向测量对象写数据的请求次数。 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第八列数据的变化得出磁盘写操作速率。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows): 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 高CPU情况下存在获取超时的现象,会导致无法获取监控数据。 Request/s 2.4.5 1分钟 disk_readTime (Agent)读操作平均耗时 该指标用于统计测量对象磁盘读操作平均耗时。 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第七列数据的变化得出磁盘读操作平均耗时。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 ms/Count 2.4.5 1分钟 disk_writeTime (Agent)写操作平均耗时 该指标用于统计测量对象磁盘写操作平均耗时。 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十一列数据的变化得出磁盘写操作平均耗时。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 ms/Count 2.4.5 1分钟 disk_ioUtils (Agent)磁盘I/O使用率 该指标用于统计测量对象磁盘I/O使用率。 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十三列数据的变化得出磁盘I/O使用率。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 % 2.4.1 1分钟 disk_queue_length (Agent)平均队列长度 该指标用于统计指定时间段内,平均等待完成的读取或写入操作请求的数量 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十四列数据的变化得出磁盘平均队列长度。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 Count 2.4.5 1分钟 disk_write_bytes_per_operation (Agent)平均写操作大小 该指标用于统计指定时间段内,平均每个写I/O操作传输的字节数。 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十列数据的变化与第八列数据的变化相除得出磁盘平均写操作大小。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 Byte/op 2.4.5 1分钟 disk_read_bytes_per_operation (Agent)平均读操作大小 该指标用于统计指定时间段内,平均每个读I/O操作传输的字节数。 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第六列数据的变化与第四列数据的变化相除得出磁盘平均读操作大小。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 Byte/op 2.4.5 1分钟 disk_io_svctm (Agent)平均I/O服务时长 该指标用于统计指定时间段内,平均每个读或写I/O的操作时长。 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十三列数据的变化与第四列数据和第八列数据和的变化相除得出磁盘平均I/O时长。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 ms/op 2.4.5 1分钟 disk_device_used_percent 块设备使用率 该指标用于统计测量对象物理磁盘使用率,以百分比为单位。计算方式为: 所有已挂载磁盘分区已用存储量/磁盘存储总量。 采集方式(Linux):通过汇总每个挂载点的磁盘使用量,再通过磁盘扇区大小和扇区数量计算出磁盘总大小,计算出整体磁盘使用率 (Windows):暂不支持。 % 2.5.6 1分钟
  • 操作系统监控指标: 磁盘 CES Agent目前仅支持物理磁盘指标的采集,不支持通过网络文件系统协议挂载的磁盘。 CES Agent会默认屏蔽docker相关的挂载点。挂载点前缀如下: /var/lib/docker;/mnt/paas/kubernetes;/var/lib/mesos 指标 指标名称 指标说明 单位 支持版本 监控周期(原始指标) disk_free (Agent)磁盘剩余存储量 该指标用于统计测量对象磁盘的剩余存储空间。 采集方式(Linux):执行df -h命令,查看Avail列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 GB 2.4.1 1分钟 disk_total (Agent)磁盘存储总量 该指标用于统计测量对象磁盘存储总量。 采集方式(Linux):执行df -h命令,查看Size列数据。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 GB 2.4.5 1分钟 disk_used (Agent)磁盘已用存量 该指标用于统计测量对象磁盘的已用存储空间。 采集方式(Linux):执行df -h命令,查看Used列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 GB 2.4.5 1分钟 disk_usedPercent (Agent)磁盘使用率 该指标用于统计测量对象磁盘使用率,以百分比为单位。计算方式为: 磁盘已用存储量/磁盘存储总量。 采集方式(Linux):通过计算Used/Size得出。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~ 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 % 2.4.1 1分钟