检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
父主题: 基于ModelArts Standard运行GPU训练作业
图1 GPU规格运行日志信息 父主题: 制作自定义镜像用于训练模型
图1 GPU规格运行日志信息 图2 CPU规格运行日志信息 父主题: 制作自定义镜像用于训练模型
无业务节点定义:在资源池详情“节点”页签下,如果GPU/Ascend的可用数等于总数,则为无业务节点。 滚动驱动升级时,驱动异常的节点对升级无影响,会和驱动正常的节点一起升级。 图1 驱动升级 设置完成后,单击“确定”开始驱动升级。 父主题: 管理Standard专属资源池
无业务节点定义:在资源池详情“节点管理”页签下,如果GPU/Ascend的可用数等于总数,则为无业务节点。 滚动驱动升级时,驱动异常的节点对升级无影响,会和驱动正常的节点一起升级。 图2 驱动升级 选择完成后,单击“确定”开始升级驱动。 父主题: Lite Cluster资源管理
备注:xx.xx.xx.xx为Grafana的所在宿主机的IP地址 图1 Prometheus 在HTTP的URL输入框中输入Prometheus的IP地址和端口号,单击Save&Test: 图2 IP地址和端口号 至此,指标监控方案安装完成。
(可选)配置驱动 当专属资源池中的节点含有GPU/Ascend资源时,为确保GPU/Ascend资源能够正常使用,需要配置好对应的驱动。
解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。
解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。
训练的GPU硬件工作出现异常。 处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。 检查资源分配情况(cpu/mem/gpu/snt9/infiniband)是否符合预期。
Notebook Cache盘告警上报 创建Notebook时,可以根据业务数据量的大小选择CPU、GPU或者Ascend资源,对GPU或Ascend类型的资源,ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。
解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。
解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。
解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。
解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。
解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。
解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。
解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。
解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。
GPU:GPU使用率(gpuUtil)百分比(Percent)。 GPU_MEM:显存使用率(gpuMemUsage)百分比(Percent)。 父主题: Standard模型训练