检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
“存储配置”:EVS存储。 “SSH远程开发”:开启。 “密钥对”:选择已有密钥对,或单击密钥对右侧的“立即创建”创建密钥对。 通过ToolKit连接云端Notebook。
图19 内存算子分析 dataloader 数据加载维度(Slow Dataloader Issues)通常包含如下几类问题: 数据放在读写性能较差的存储盘上,如云上的EVS和EFS。 多卡训练时使用单进程dataloader,即num_workers参数默认为0。
400 ModelArts.6331 The evs volume size ranges from {} GB to {} GB. EVS磁盘大小超限 请检查EVS磁盘大小。 400 ModelArts.6332 Incorrect parameter type.
300</height> <depth>3</depth> </size> <segmented>1</segmented> <mask_source>obs://xianao/out/dataset-8153-Jmf5ylLjRmSacj9KevS
Standard资源池节点故障定位 节点故障定位 对于Standard资源池,ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。当前可识别的故障类型如下,可通过隔离码及对应检测方法定位故障
Cluster资源池节点故障如何定位 故障说明和处理建议 图1 Lite池故障处理流程 对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondtition中。同时,节点故障指标默认会上报到
开发用于预置框架训练的代码 当您使用ModelArts Standard提供的预置框架创建算法时,您需要提前完成算法的代码开发。本章详细介绍如何改造本地代码以适配ModelArts上的训练。 创建算法时,您需要在创建页面提供代码目录路径、代码目录路径中的启动文件、训练输入路径参数和训练输出路径参数
开发用于自定义镜像训练的代码 当ModelArts Standard提供的预置框架不满足您的诉求时,ModelArts Standard支持用户构建自定义镜像用于模型训练。 自定义镜像的制作要求用户对容器相关知识有比较深刻的了解,除非订阅算法和预置框架无法满足需求,否则不推荐使用。
线下容器镜像构建及调试 镜像构建 导出conda环境 首先拉起线下的容器镜像: # run on terminal docker run -ti ${your_image:tag} 在容器中输入如下命令,得到pytorch.tar.gz: # run on container #
SDXL基于Standard适配PyTorch NPU的Finetune训练指导(6.3.905) Stable Diffusion(简称SD)是一种基于扩散过程的图像生成模型,应用于文生图场景,能够帮助用户生成图像。SDXL Finetune是指在已经训练好的SDXL模型基础上,
SDXL基于Standard适配PyTorch NPU的LoRA训练指导(6.3.908) Stable Diffusion(简称SD)是一种基于扩散过程的图像生成模型,应用于文生图场景,能够帮助用户生成图像。SDXL LoRA是指在已经训练好的SDXL模型基础上,使用新的数据集进行
在ModelArts Standard上运行GPU多机多卡训练作业 操作流程 准备工作: 购买服务资源(VPC/SFS/OBS/SWR/ECS) 配置权限 创建专属资源池(打通VPC) ECS服务器挂载SFS Turbo存储 在ECS中设置ModelArts用户可读权限 安装和配置
使用AOM查看Lite Cluster监控指标 ModelArts Lite Cluster会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况并上报到AOM,用户可直接在AOM上查看默认配置好的基础指标,也支持用户自定义一些指标项上报到AOM查看
在AOM控制台查看ModelArts所有监控指标 ModelArts会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况以及开发环境、训练作业、推理服务的关键资源的使用情况,并上报到AOM,用户可直接在AOM上查看。 登录AOM控制台查看监控指标