检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。 图1 购买ECS Step2 创建镜像组织 在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。 图1 购买ECS Step2 创建镜像组织 在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
准备镜像 镜像方案说明 ECS获取和上传基础镜像 ECS中构建新镜像(可选) 父主题: 准备工作
如何减小本地或ECS构建镜像的目的镜像的大小? 减小目的镜像大小的最直接的办法就是选择尽可能小且符合自己诉求的镜像,比如您需要制作一个PyTorch2.1+Cuda12.2的镜像,官方如果没有提供对应的PyTorch或者Cuda版本的镜像,优选一个没有PyTorch环境或没有安装
/home/ma-user/ws/llm_train/AscendFactory 构建新镜像: docker build -t <镜像名称>:<版本名称> . 如无法访问公网则需配置代理,增加`--build-arg`参数指定代理地址确保访问公网。 docker build --build-arg "https_proxy=http://xxx
使用镜像 在AI Gallery中,您可以查找共享的镜像并用于AI开发。 使用镜像 登录“AI Gallery”。 选择“资产集市 > 镜像”,进入镜像页面,该页面展示了所有共享的镜像。 搜索业务所需的镜像,请参见查找和收藏资产。 单击目标镜像进入详情页面。 在详情页面您可以查看
注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。 图1 购买ECS Step2 创建镜像组织 在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
方式一:在Notebook实例创建页面,镜像类型选择“自定义镜像”,名称选择上述保存的镜像。 图3 创建基于自定义镜像的Notebook实例 方式二:在“镜像管理”页面,单击某个镜像的镜像详情,在镜像详情页,单击“创建Notebook”,也会跳转到基于该自定义镜像创建Notebook的页面。 镜像保存时,哪些目录的数据可以被保存
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
Identifier,简称UUID)。预置镜像的ID参考查询支持的镜像列表获取。 name String 镜像名称,长度限制512个字符,支持小写字母、数字、中划线、下划线和点。 namespace String 镜像所属组织,可以在SWR控制台“组织管理”创建和查看。 origin String 指定镜像来源,可
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
xxx" --network=host -t <镜像名称>:<版本名称> . <镜像名称>:<版本名称>:定义镜像名称。示例:pytorch_2_2_ascend:20241106 构建镜像前需保证Dockerfile文件内容中镜像名与本文档镜像保持一致,如不同则需修改为一致。 # 修改以下内容:
选择“镜像管理”,进入镜像管理页面。 单击“注册镜像”,镜像源即为步骤1中推送到SWR中的镜像。请将完整的SWR地址复制到这里即可,或单击可直接从SWR选择自有镜像进行注册。 “架构”和“类型”根据实际情况选择,与镜像源保持一致。 注册镜像时,“架构”和“类型”需要和镜像源保持一
(25G)”,镜像创建失败。 原因分析 镜像保存本质是通过在资源集群节点上的agent中进行了docker commit,再配合一系列自动化操作来上传和更新管理数据等。每次Commit都会带来额外的一些开销,层数越多镜像越大,如果多次保存后就会有存储显示没那么大,但是镜像已经很大。镜
Notebook自定义镜像故障基础排查 当制作的自定义镜像使用出现故障时,请用户按照如下方法排查: 用户自定义镜像没有ma-user用户及ma-group用户组; 用户自定义镜像中/home/ma-user目录,属主和用户组不是ma-user和ma-group; 用户自定义镜像必须满足用户
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2