AI开发平台MODELARTS-训练管理中使用自定义镜像介绍:完全使用自定义镜像
完全使用 自定义镜像
训练支持的自定义镜像使用说明请参考使用自定义镜像创建训练作业。
完全使用自定义镜像场景下,指定的“conda env”启动训练方法如下:
由于训练作业运行时不是shell环境,因此无法直接使用“conda activate”命令激活指定的 “conda env”,需要使用其他方式以达成使用指定“conda env”来启动训练的效果。
假设您的自定义镜像中的“conda”安装于“/home/ma-user/anaconda3”目录“conda env”为“python-3.7.10”,训练脚本位于“/home/ma-user/modelarts/user-job-dir/code/train.py”。可通过以下方式使用指定的“conda env”启动训练:
- 方式一:为镜像设置正确的“DEFAULT_CONDA_ENV_NAME”环境变量与“ANACONDA_DIR”环境变量。
ANACONDA_DIR=/home/ma-user/anaconda3 DEFAULT_CONDA_ENV_NAME=python-3.7.10
您可以使用Python命令启动训练脚本。启动命令示例如下:python /home/ma-user/modelarts/user-job-dir/code/train.py
- 方式二:使用“conda env python”的绝对路径。
您可以使用“/home/ma-user/anaconda3/envs/python-3.7.10/bin/python”命令启动训练脚本。启动命令示例如下:
/home/ma-user/anaconda3/envs/python-3.7.10/bin/python /home/ma-user/modelarts/user-job-dir/code/train.py
- 方式三:设置PATH环境变量。
- 方式四:使用“conda run -n”命令。
您可以使用“/home/ma-user/anaconda3/bin/conda run -n python-3.7.10”命令来执行训练命令,启动命令示例如下:
/home/ma-user/anaconda3/bin/conda run -n python-3.7.10 python /home/ma-user/modelarts/user-job-dir/code/train.py
如果在训练时发生找不到“$ANACONDA_DIR/envs/$DEFAULT_CONDA_ENV_NAME/lib ”目录下“.so”文件的相关报错,可以尝试将该目录加入到“LD_LIBRARY_PATH”,将以下命令放在上述启动方式命令前:
export LD_LIBRARY_PATH=$ANACONDA_DIR/envs/$DEFAULT_CONDA_ENV_NAME/lib:$LD_LIBRARY_PATH;
例如,方式一的启动命令示例此时变为:
export LD_LIBRARY_PATH=$ANACONDA_DIR/envs/$DEFAULT_CONDA_ENV_NAME/lib:$LD_LIBRARY_PATH; python /home/ma-user/modelarts/user-job-dir/code/train.py
- ModelArts自定义镜像_自定义镜像简介_如何使用自定义镜像
- ModelArts推理部署_创建AI应用_自定义镜像规范-华为云
- ModelArts分布式训练_分布式训练介绍_分布式调测
- OBS如何绑定自定义域名_OBS如何使用CDN加速_OBS如何使用CDN自动刷新
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts模型训练_模型训练简介_如何训练模型
- ModelArts开发环境_开发环境简介_开发环境怎么使用
- 容器镜像创建用户并授权使用SWR_华为云SWR_容器镜像创建授权
- 华为GaussDB自定义函数_GaussDB教程_华为高斯数据库自定义函数
- GaussDB数据库自定义函数_GaussDB 华为_高斯数据库自定义函数