检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
表10 network 参数 参数类型 描述 name String 网络名称;用户接口通过指定网络名称创建网络,系统会自动创建子网,用户无法创建子网。默认将创建在第一个子网下。 表11 PoolDriver 参数 参数类型 描述 gpuVersion String GPU驱动版
--device=/dev/davinci0:挂载NPU设备,单卡即可。 driver及npu-smi需同时挂载至容器。 不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 进入容器。默认使用ma-user用户,后续所有操作步骤都在ma-user用户下执行。 docker exec -it
表10 network 参数 参数类型 描述 name String 网络名称;用户接口通过指定网络名称创建网络,系统会自动创建子网,用户无法创建子网。默认将创建在第一个子网下。 表11 PoolDriver 参数 参数类型 描述 gpuVersion String GPU驱动版
在创建数据处理页面,填写相关算法参数。 填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成,按“V0001”、“V0002”规则命名,用户无法修改。 您可以根据实际情况填写“名称”和“描述”信息。 设置场景类别。场景类别当前支持“图像分类”和“物体检测”。 设置数据处理类型为“数
生成模型name。 model_version 是 String 模型版本,格式需为“数值.数值.数值”,其中数值为1-2位正整数。版本不可以出现以0开头的版本号形式,如“01.01.01”等。 publish 否 Bool 是否发布模型。可选值: True: 发布模型。(默认值)
),则模型文件必须满足自定义模型规范(训练)才支持模型自定义训练。 当使用自定义镜像进行模型微调时,要确认镜像是否满足自定义镜像规范,否则无法成功完成自定义训练。 进入模型微调 登录AI Gallery。 单击“模型”进入模型列表。 选择需要进行微调训练的模型,单击模型名称进入模型详情页。
示例中挂载了单张卡davinci0。 driver及npu-smi需同时挂载至容器。 不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 步骤四 进入容器运行 进入容器后执行启动命令。 docker exec -it ${container_name} bash
build -t pytorch-1.13-cuda11.3-cudnn8-ubuntu18.04:v1 . 容器镜像的大小建议小于15G,不能大于25G。否则镜像的迁移、拉起都会存在性能问题。 建议通过开源的官方镜像来构建,例如PyTorch的官方镜像。 建议容器分层构建,单层容
5-large:https://huggingface.co/stabilityai/stable-diffusion-3.5-large/tree/main 如果无法手动下载,可以先在容器内命令行输入以下命令,然后使用个人huggingface token进行登录: huggingface-cli login
rename('obs://bucket_name/obs_file.txt', 'obs://bucket_name/obs_file_2.txt') 移动和复制操作不可以跨桶,必须在同一个桶内操作。 从OBS移动到本地,例如将“obs://bucket_name/obs_file.txt”移动到“/tmp/obs_file
是否必选 参数类型 描述 os.modelarts/description 否 String 资源池描述信息,用于说明资源池用于某种指定场景。不能包含特殊字符!<>=&"'。 os.modelarts/order.id 否 String 订单id,包周期创建和变更的时候需要传递该参数。
容器时会用到,此处可以自己定义一个容器名称。 ${image_id}:镜像ID,通过docker images查看刚拉取的镜像ID。 容器不能挂载到/home/ma-user目录,此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下,拉起容器时会与基础镜像冲突,导致基础镜像不可用。
+ 'train/') 参数解释: code_dir:必选参数,训练脚本所在的目录。在训练任务调测的情况下,必须是notebook中的目录,不能是OBS目录。 boot_file:必选参数,训练启动文件路径,路径格式为基于code_dir目录的相对路径,如实例代码中boot_fil
ModelArts训练日志 只有MindSpore+Ascend训练场景下会产生单独的MindSpore日志。其他AI引擎的日志都包含在普通日志中,无法区分。 训练日志的时效性 从日志产生的时效性上可以分为以下3种情况: 实时日志:训练作业实时运行时产生,在ModelArts训练作业详情页面上可以查看。
上传镜像至SWR服务 Step6 在ModelArts上创建训练作业 前提条件 已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹 在OBS服务中创建桶和文件夹,用于存放样例数据集以及训练代码。需要创建的文件夹列表
上传镜像至SWR服务 Step6 在ModelArts上创建训练作业 前提条件 已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹 在OBS服务中创建桶和文件夹,用于存放样例数据集以及训练代码。需要创建的文件夹列表
上传镜像至SWR服务 Step7 在ModelArts上创建训练作业 前提条件 已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹 在OBS服务中创建桶和文件夹,用于存放样例数据集以及训练代码。需要创建的文件夹列表
pytorch:2.1.0-cann7.0.0 上传镜像至SWR服务 登录容器镜像服务控制台,选择区域,要和ModelArts区域保持一致,否则无法选择到镜像。 单击右上角“创建组织”,输入组织名称完成组织创建。请自定义组织名称,本示例使用“deep-learning”,下面的命令中涉
当推理方式为batch/edge时仅支持配置一个模型。 当推理方式为real-time时,可根据业务需要配置多个模型并分配权重,但多个模型的版本号不能相同 schedule 否 schedule结构数组 服务调度配置,仅在线服务可配置,默认不使用,服务长期运行。请参见表6。 cluster_id
自定义数据进行训练,该参数为“true”时使用基于torch自定义的随机数据进行训练和验证。 cifar10数据集 在Notebook中,无法直接使用默认版本的torchvision获取数据集,因此示例代码中提供了三种训练数据加载方式。 cifar-10数据集下载链接,单击“CIFAR-10