搜索_华为云

LoRA微调训练 - AI开发平台ModelArts

默认必须填写。根据资源规格每个节点上NPU的数量填写。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。图2 开启故障重启 Step5 其他配置选择用户自己的专属资源池，以及规格与节点数。本次qwenvl模型选用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

使用自定义镜像功能，通过torch.distributed.run命令启动训练的启动文件 torch_ddp.py内容如下： import os import torch import torch.distributed as dist import torch.nn as nn import

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
SD3基于DevServer适配PyTorch NPU的训练指导（6.3.912） - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir}：代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下可存放项目所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
ma-cli dli-job提交DLI Spark作业支持的命令 - AI开发平台ModelArts

资源包名称。支持本地文件，OBS路径及用户已上传到DLI资源管理系统的文件。如果需要指定多个参数，可以使用--resources resource1 --resources resource2。 --files Array of String 否用户已上传到DLI资源管理系统的类型为file的资源包名。也支持

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
配置ModelArts委托授权 - AI开发平台ModelArts

新增委托：如果没有委托可选，可以在新增委托中创建委托权限。对于首次使用ModelArts的用户，需要新增委托。 “新增委托 > 委托名称” 系统自动创建委托名称，用户可以手动修改。 “新增委托 > 授权方式” 角色授权：IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 配置MaaS访问授权
LLaVA模型基于DevServer适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

ci7。 ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统，work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
开发用于自定义镜像训练的代码 - AI开发平台ModelArts

/user-job-dir/code/train.py 使用Ascend自定义镜像训练时的训练代码适配规范使用NPU资源创建训练作业时，系统会在训练容器里自动生成Ascend HCCL RANK_TABLE_FILE文件。当使用预置框架创建训练作业时，在训练过程中预置框架会自动解析Ascend

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
数据标注场景介绍 - AI开发平台ModelArts

除了人工标注外，ModelArts还提供了智能标注功能，快速完成数据标注，为您节省70%以上的标注时间。智能标注是指基于当前标注阶段的标签及图片学习训练，选中系统中已有的模型进行智能标注，快速完成剩余图片的标注操作。目前只有“图像分类”和“物体检测”类型的数据集支持智能标注功能。团队标注数据标

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

--tensor-parallel-size：并行卡数。 --gpu-memory-utilization：0~1之间的float，实际使用的显存是系统读取的最大显存*gpu-memory-utilization。 --max-model-len：最大数据输入+输出长度，不能超过模型配置文件config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
模型调试 - AI开发平台ModelArts
模型调试 - AI开发平台ModelArts

String 模型名称，名称只能字母，中文开头，为字母、数字、下划线、中文或者中划线组成的合法字符，支持1-64个字符。如果未输入该参数，系统会自动生成模型name。 model_version 是 String 模型版本，格式需为“数值.数值.数值”，其中数值为1-2位正整数。

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
分离部署推理服务 - AI开发平台ModelArts

nci5。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统，dir为宿主机中文件目录，${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

5版本，如果非该版本号则在代码开始处执行： import os os.system('pip install numpy==1.18.5') 如果依旧有报错情况，将以上代码修改为： import os os.system('pip install numpy==1.18.5') os.system('pip install

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
mox.file与本地接口的对应关系和切换 - AI开发平台ModelArts

Glob os.listdir mox.file.list_directory(..., recursive=False) tf.gfile.ListDirectory os.makedirs mox.file.make_dirs tf.gfile.MakeDirs os.mkdir

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
分离部署推理服务 - AI开发平台ModelArts

nci5。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统，dir为宿主机中文件目录，${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

nci5。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统，dir为宿主机中文件目录，${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ - AI开发平台ModelArts

env | grep RANK 在训练作业中，您可以在训练启动脚本的首行加入如下代码，把RANK_TABLE_FILE的值打印出来： 1 os.system('env | grep RANK') 父主题： Standard模型训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练

总条数： 851

上一页
1
...
35
36
37
...
43
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

LoRA微调训练 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

SD3基于DevServer适配PyTorch NPU的训练指导（6.3.912） - AI开发平台ModelArts

ma-cli dli-job提交DLI Spark作业支持的命令 - AI开发平台ModelArts

配置ModelArts委托授权 - AI开发平台ModelArts

LLaVA模型基于DevServer适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

数据标注场景介绍 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

模型调试 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

mox.file与本地接口的对应关系和切换 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线