检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图1 创建训练作业 训练作业启动命令中输入: cd /home/ma-user/work/Qwen-VL; ln -s ${DATA}/ qwenvl_dataset; sh finetune/finetune_lora_ds.sh Step2 配置数据输入和输出 单击“增加训练输入
在创建训练作业页面配置环境变量“ROUTE_PLAN”,取值为“true”,具体操作请参见管理训练容器环境变量。 代码示例 训练作业的启动脚本示例如下。
docker pull {image_url} Step3 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。
docker pull {image_url} 步骤三 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。
原因分析 可能是Conda网络不通,请使用pip install命令安装。 解决方法 执行 !pip install keras==2.3.1命令安装Keras。 父主题: 环境配置故障
其中都是buildkitd.service的内容。复制以下全部命令并运行即可。
启动SD1.5 Finetune训练服务 使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_finetune_train.sh 启动SDXL Finetune训练服务 使用ma-user用户执行如下命令运行训练脚本。
其中都是buildkitd.service的内容。复制以下全部命令并运行即可。
启动DevServer实例 功能介绍 启动DevServer实例。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
/scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh .
/scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh .
/scripts/obs_pipeline.sh 若镜像使用ECS中构建新镜像(二选一)构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh .
/scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh .
任务前容器中执行以下命令: # 历史版本demo.sh启动,: export PYTORCH_NPU_ALLOC_CONF = expandable_segments:False 使用ascendfactory-cli方式启动训练时,命令行参数新加以下环境变量: PYTORCH_NPU_ALLOC_CONF
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。
在Notebook中打开terminal,可以运行如下命令查看RANK_TABLE_FILE: 1 env | grep RANK 在训练作业中,您可以在训练启动脚本的首行加入如下代码,把RANK_TABLE_FILE的值打印出来: 1 os.system('env | grep
启动/停止/删除实例 启动/停止实例 由于运行中的Notebook将一直耗费资源,您可以通过停止操作,停止资源消耗。对于停止状态的Notebook,可通过启动操作重新使用Notebook。
可以通过命令查看容器输出到stdout的所有日志: docker logs -f 39c9ceedb1f6 一般在做推理镜像时,部分日志是直接存储在容器内部的,所以需要进入容器看日志。注意:重点对应日志中是否有ERROR(包括,容器启动时、API执行时)。
启动团队标注任务 功能介绍 启动团队标注任务。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
解决方式: 在Terminal里执行如下命令在镜像里指定环境变量。