检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
“MA_NUM_HOSTS=4” VC_TASK_INDEX 当前容器索引,容器从0开始编号。单机训练的时候,该字段无意义。在多机作业中,用户可以根据这个值来确定当前容器运行的算法逻辑。 “VC_TASK_INDEX=0” VC_WORKER_NUM 训练作业使用的实例数量。 “VC_WORKER_NUM=4”
Start model import. - 异常 构建镜像失败。 Failed to build the image. 构建镜像失败原因较多,需根据具体的报错定位和处理问题。FAQ 异常 自定义镜像不支持指定依赖。 Customize model does not support dependencies
[00:00<?, ?B/s] /test/ur5468675--test_cli_model1/config.json 下载多个文件 根据文件名下载文件 在服务器执行如下命令,将待下载的文件名枚举出来即可从AI Gallery仓库依次下载多个文件到云服务器的缓存目录下。 gallery-cli
torch.save(state_dict, path) 保存整个Model(不推荐) torch.save(model, path) 可根据step步数、时间等周期性保存模型的训练过程的产物。 将模型训练过程中的网络权重、优化器权重、以及epoch进行保存,便于中断后继续训练恢复。
failed_reasons Object 创建、启动失败原因,如表22所示。 annotations Map<String,String> 注解信息。 其中,生成的url信息,不可直接访问使用。 extend_params Map<String,String> 扩展参数。 表12 storage定义数据结构说明
benchmark_utils.py # 抽离的工具集 ├── generate_datasets.py # 生成自定义数据集的脚本 ├── requirements.txt # 第三方依赖 ├──benchmark_eval
ECS获取和上传基础镜像 创建ECS。 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。
ge_url}参见获取镜像。 docker pull {image_url} 启动容器镜像。启动前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。推理默认使用单机单卡。 docker run -itd --net=host \ --device=/dev/davinci0
benchmark_utils.py # 抽离的工具集 ├── generate_datasets.py # 生成自定义数据集的脚本 ├── requirements.txt # 第三方依赖 ├──benchmark_eval
退出当前AI任务以便重新执行 NPU: errorcode告警 NPUErrorCodeWarning 重要 这里涵盖了大量重要及以上的NPU错误码,您可以根据这些错误码进一步定位错误原因 对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误 NPU当前存在故障,可能导致客户业务终止 NPU
{image_url}获取请参见表1。 docker pull {image_url} Step3 启动容器镜像 启动容器镜像,启动前可以根据实际需要增加修改参数。 docker run -itd --net=host \ --device=/dev/davinci0 \ --device=/dev/davinci1
001,20:0.0001代表0-10个epoch学习率0.001,10-20epoch学习率0.0001),如果不指定epoch, 会根据验证精度情况自动调整学习率,并当精度没有明显提升时,训练停止")), wf.AlgorithmParameters(name="batch_size"
url}参见获取软件和镜像。 docker pull {image_url} 启动容器镜像。启动前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。训练默认使用单机8卡。 docker run -itd --net=host \ --device=/dev/davinci0
mage_url}参考表2。 docker pull {image_url} 启动容器镜像。启动前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。 export work_dir="自定义挂载的工作目录" export container_work_dir="自定义挂载到容器内的工作目录"
url}参见获取软件和镜像。 docker pull {image_url} 启动容器镜像。启动前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。 docker run -it --net=host \ --device=/dev/davinci0 \ --device=/dev/davinci1
7-aarch64-snt9b Ascend snt9b Notebook、训练、推理部署 开发环境Notebook 开发环境的Notebook,根据不同的工作环境,对应支持的镜像和版本有所不同。 表3 Notebook支持的镜像 镜像名称 镜像描述 适配芯片 支持SSH远程开发访问 支持在线JupyterLab访问
自动停止参数,如表10 auto_stop字段数据结构说明所示。 annotations Map<String,String> 注解信息。 其中,生成的url信息,不可直接访问使用。 failed_reasons Object 创建、启动失败失败原因,如表16所示。 extend_params
7-aarch64-snt3p Ascend snt3p Notebook、训练、推理部署 华北-北京四 开发环境Notebook 开发环境的Notebook,根据不同的工作环境,对应支持的镜像和版本有所不同。 表3 新版Notebook支持的镜像 镜像名称 镜像描述 适配芯片 支持SSH远程开发访问
co/runwayml/stable-diffusion-v1-5/resolve/main/v1-5-pruned-emaonly.safetensors 根据需要下载controlnet模型。 controlnet模型官网下载地址: https://huggingface.co/lllyasvi
程IO都没有变化,则进入资源利用率检测阶段。 资源利用率:在作业进程IO没有变化的情况下,采集一定时间段内的GPU利用率或NPU利用率,并根据这段时间内的GPU利用率或NPU利用率的方差和中位数来判断资源使用率是否有变化。如果没有变化,则判定作业卡死。 系统预置了卡死检测的环境变