AI开发平台MODELARTS-SDXL基于DevServer适配PyTorch NPU的Finetune训练指导(6.3.905):Step4 启动镜像

时间:2024-12-09 20:36:09

Step4 启动镜像

启动容器镜像。启动前可以根据实际需要增加修改参数。
docker run -itd --name sdxl-train -v /sys/fs/cgroup:/sys/fs/cgroup:ro  -v /etc/localtime:/etc/localtime -v /usr/local/Ascend/driver:/usr/local/Ascend/driver -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi --shm-size 60g --device=/dev/davinci_manager --device=/dev/hisi_hdc --device=/dev/devmm_svm --device=/dev/davinci0 --device=/dev/davinci1 --device=/dev/davinci2 --device=/dev/davinci3 --device=/dev/davinci4 --device=/dev/davinci5 --device=/dev/davinci6 --device=/dev/davinci7 --security-opt seccomp=unconfined --network=bridge sdxl-train:0.0.1 bash

参数说明:

  • --device=/dev/davinci0,..., --device=/dev/davinci7:挂载NPU设备,示例中挂载了8张卡davinci0~davinci7。
    • driver及npu-smi需同时挂载至容器。
    • 不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。
进入容器。默认使用ma-user用户,后续所有操作步骤都在ma-user用户下执行。
docker exec -it sdxl-train bash
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_01201.html