应用平台 APPSTAGE-常用监控插件说明:gpu

时间:2024-09-27 11:22:58

gpu

插件类型

OS

功能说明

采集GPU信息,每次采集都为每个GPU,以及总GPU维度分别生成消息,并上报给HCW。

执行nvidia-smi命令,分别获取每个GPU的GPU-Util、Bus-Id、mem_used、mem_total、mem_util信息,并整合总GPU信息上报给HCW。

参数配置

不需要配置。

消息样例及含义说明

{
   "plugin_id":"gpu",                          #单位:  | 类型:string  | 说明:插件名
   "metric":{
              "node": "bj-xen-pdc-241-202",       #单位:  | 类型:string  | 说明:主机名,消息来源标识
              "timestamp": "1518078026000",       #单位:  | 类型:string  | 说明:字符类型时间戳
              "_id":"GPU-0",                      #单位:  | 类型:string  | 说明:GPU编号,总GPU编号为GPU-ALL
              "_name":"Tesla P100-PCIE",          #单位:  | 类型:string  | 说明:GPU型号
              "bus_id":"0000:04:00.0",           #单位:  | 类型:string  | 说明:GPU的Bus-Id
              "util":"61",	                  #单位:  | 类型:string  | 说明:GPU使用率
              "mem_used":"1385",                  #单位:  | 类型:string  | 说明:GPU已使用显存
              "mem_total":"16276",                #单位:  | 类型:string  | 说明:GPU显存总量
              "mem_util":"8.50"			  #单位:  | 类型:string  | 说明:GPU显存使用率
    }
}
support.huaweicloud.com/usermanual-wiseeye/appstage_04_1249.html