搜索_华为云

SFT全参微调训练 - AI开发平台ModelArts

能，可查看模型开发简介。 Step2 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。表1 需要填写的环境变量环境变量示例值参数说明 GPUS_PER_NODE 8 必须填写。根据资源规格每个节点上NPU的数量填写。 DATA

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

必须修改。加载tokenizer与Hugging Face权重时，对应的存放地址。请根据实际规划修改。对于ChatGLMv3-6B和Qwen系列模型，还需要手动修改tokenizer文件，具体请参见训练tokenizer文件说明。 Step2 创建预训练任务创建训练作业，并自定义名称、描述等

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
在Notebook中通过Dockerfile从0制作自定义镜像 - AI开发平台ModelArts

E=/home/ma-user/anaconda3/envs/MindSpore 如果使用的基础镜像不是ModelArts提供的公共镜像，需要在Dockerfile文件中添加ModelArts指定的用户和用户组，具体可参考Dockerfile文件（基础镜像为非ModelArts提供）。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
SFT全参微调训练 - AI开发平台ModelArts

必须修改。加载tokenizer与Hugging Face权重时，对应的存放地址。请根据实际规划修改。对于ChatGLMv3-6B和Qwen系列模型，还需要手动修改tokenizer文件，具体请参见训练tokenizer文件说明。 Step2 创建SFT全参微调训练任务创建训练作业，并自定义

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
LoRA微调训练 - AI开发平台ModelArts

必须修改。加载tokenizer与Hugging Face权重时，对应的存放地址。请根据实际规划修改。对于ChatGLMv3-6B和Qwen系列模型，还需要手动修改tokenizer文件，具体请参见训练tokenizer文件说明。由于模型中LoRA微调训练存在已知的精度问题，因此不支持TP(tensor

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
LoRA微调训练 - AI开发平台ModelArts

能，可查看模型开发简介。 Step2 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。表1 需要填写的环境变量环境变量示例值参数说明 GPUS_PER_NODE 8 必须填写。根据资源规格每个节点上NPU的数量填写。 DATA

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

选择代码目录中训练作业的Python启动脚本。例如“obs://test-modelarts/code/main.py”。超参当资源规格为单机多卡时，需要指定超参world_size和rank。当资源规格为多机时（即实例数大于 1），无需设置超参world_size和rank，超参会由平台自动注入。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
创建ModelArts数据选择任务 - AI开发平台ModelArts

复图片被过滤掉。取值范围为0~1。 do_validation 否 True 是否进行数据校验，可填True或者False。表示数据去重前需要进行数据校验，否则只进行数据去重。输入要求算子输入分为两种，“数据集”或“OBS目录”。选择“数据集”，请从下拉框中选择ModelA

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
查询数据集导出任务的状态 - AI开发平台ModelArts

通过样本属性搜索。 parent_sample_id String 父样本ID。 sample_dir String 根据样本所在目录搜索（目录需要以/结尾），只搜索指定目录下的样本，不支持目录递归搜索。 sample_name String 根据样本名称搜索（含后缀名）。 sample_time

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
从OBS目录导入数据规范说明 - AI开发平台ModelArts

1.wav 2.wav 3.wav 表格支持从OBS导入csv文件，需要选择文件所在目录，其中csv文件的列数需要跟数据集schema一致。支持自动获取csv文件的schema。 ├─dataset-import-example │

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集 > 从OBS导入数据到ModelArts数据集
创建训练作业 - AI开发平台ModelArts

否 String 对训练作业的描述，默认为“NULL”，字符串的长度限制为[0, 256]。 config 是 Object 创建训练作业需要的参数。详情请参见表3。 workspace_id 否 String 指定作业所处的工作空间，默认值为“0”。表3 config属性列表

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
更新算法 - AI开发平台ModelArts
更新算法 - AI开发平台ModelArts

String 算法的代码目录。如：“/usr/app/”。应与boot_file一同出现。 boot_file 否 String 算法的代码启动文件，需要在代码目录下。如：“/usr/app/boot.py”。应与code_dir一同出现。 command 否 String 自定义镜像算法的容器启动命令。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
训练启动脚本说明和参数配置 - AI开发平台ModelArts

必须修改。指定的输入数据集中数据的总数量。更换数据集时，需要修改。 EPOCH 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数，根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时，保持一致。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考
训练启动脚本说明和参数配置 - AI开发平台ModelArts

必须修改。指定的输入数据集中数据的总数量。更换数据集时，需要修改。 EPOCH 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数，根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时，保持一致。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
创建算法 - AI开发平台ModelArts
创建算法 - AI开发平台ModelArts

String 算法的代码目录。如：“/usr/app/”。应与boot_file一同出现。 boot_file 否 String 算法的代码启动文件，需要在代码目录下。如：“/usr/app/boot.py”。应与code_dir一同出现。 command 否 String 自定义镜像算法的容器启动命令。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

--global-option="--cuda_ext" /cache/apex-master') 安装报错 “xxx.whl”文件无法安装，需要您按照如下步骤排查：当出现“xxx.whl”文件无法安装，在启动文件中添加如下代码，查看当前pip命令支持的文件名和版本。 import

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

ache目录用完。如文件大小小于/cache目录大小并且文件数量超过50w，则考虑为inode不足或者触发了操作系统的文件索引相关问题。需要：分目录处理，减少单个目录文件量。减慢创建文件的速度。如数据解压过程中，sleep 5s后再进行下一个数据的解压。如果训练作业的工作

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
推理精度测试 - AI开发平台ModelArts

- BradyFU/Awesome-Multimodal-Large-Language-Models at Evaluation）。配置需要使用的NPU卡，例如：实际使用的是第1张和第2张卡，此处填写为“0,1”，以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
推理精度测试 - AI开发平台ModelArts

- BradyFU/Awesome-Multimodal-Large-Language-Models at Evaluation）。配置需要使用的NPU卡，例如：实际使用的是第1张和第2张卡，此处填写为“0,1”，以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
推理精度测试 - AI开发平台ModelArts

- BradyFU/Awesome-Multimodal-Large-Language-Models at Evaluation）。配置需要使用的NPU卡，例如：实际使用的是第1张和第2张卡，此处填写为“0,1”，以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）

总条数： 1520

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SFT全参微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

在Notebook中通过Dockerfile从0制作自定义镜像 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

创建ModelArts数据选择任务 - AI开发平台ModelArts

查询数据集导出任务的状态 - AI开发平台ModelArts

从OBS目录导入数据规范说明 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

更新算法 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

创建算法 - AI开发平台ModelArts

如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线