AI开发平台MODELARTS-ModelArts支持的监控指标:监控指标
监控指标
指标ID |
指标名称 |
指标含义 |
取值范围 |
测量对象 |
监控周期 |
---|---|---|---|---|---|
cpu_usage |
CPU使用率 |
该指标用于统计ModelArts用户服务的CPU使用率。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
mem_usage |
内存使用率 |
该指标用于统计ModelArts用户服务的内存使用率。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
gpu_util |
GPU使用率 |
该指标用于统计ModelArts用户服务的GPU使用情况。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
gpu_mem_usage |
GPU显存使用率 |
该指标用于统计ModelArts用户服务的GPU显存使用情况。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
npu_util |
NPU使用率 |
该指标用于统计ModelArts用户服务的NPU使用情况。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
npu_mem_usage |
NPU显存使用率 |
该指标用于统计ModelArts用户服务的NPU显存使用情况。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
successfully_called_times |
调用成功次数 |
统计ModelArts用户调用服务的成功次数。 单位:次/分钟。 |
≥Count/min |
ModelArts模型负载 ModelArts在线服务 |
1分钟 |
failed_called_times |
调用失败次数 |
统计ModelArts用户调用服务的失败次数。 单位:次/分钟。 |
≥Count/min |
ModelArts模型负载 ModelArts在线服务 |
1分钟 |
total_called_times |
调用总次数 |
统计ModelArts用户调用服务的次数。 单位:次/分钟。 |
≥Count/min |
ModelArts模型负载 ModelArts在线服务 |
1分钟 |
disk_read_rate |
磁盘读取速率 |
统计ModelArts用户服务的磁盘读取速率 单位:bit/min |
≥bit/min |
ModelArts模型负载 |
1分钟 |
disk_write_rate |
磁盘写入速率 |
统计ModelArts用户服务的磁盘写入速率 单位:bit/min |
≥bit/min |
ModelArts模型负载 |
1分钟 |
send_bytes_rate |
上行速率 |
统计ModelArts用户服务的 出方向网络流速。 单位:bit/min |
≥bit/min |
ModelArts模型负载 |
1分钟 |
recv_bytes_rate |
下行速率 |
统计ModelArts用户服务的 入方向网络流速。 |
≥bit/min |
ModelArts模型负载 |
1分钟 |
req_count_2xx |
2xx响应次数 |
统计api接口2xx响应的次数 |
≥Count/min |
ModelArts在线服务 |
1分钟 |
req_count_4xx |
4xx异常次数 |
统计api接口返回4xx错误的次数 |
≥Count/min |
ModelArts在线服务 |
1分钟 |
req_count_5xx |
5xx异常次数 |
统计api接口返回5xx错误的次数 |
≥Count/min |
ModelArts在线服务 |
1分钟 |
avg_latency |
平均延迟毫秒数 |
统计api接口平均响应延时时间 |
≥ms |
ModelArts在线服务 |
1分钟 |
对于有多个测量维度的测量对象,使用接口查询监控指标时,所有测量维度均为必选。
|