搜索_华为云

训练输出路径被其他作业使用 - AI开发平台ModelArts

训练输出路径被其他作业使用问题现象在创建训练作业时出现如下报错：操作失败！Other running job contain train_url: /bucket-20181114/code_hxm/ 原因分析根据报错信息判断，在创建训练作业时，同一个“训练输出路径”在被其他作业使用。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
是否支持图像分割任务的训练？ - AI开发平台ModelArts

是否支持图像分割任务的训练？支持。您可以使用以下三种方式实现图像分割任务的训练。您可以在AI Gallery订阅相关图像分割任务算法，并使用订阅算法完成训练。如果您在本地使用ModelArts支持的常用框架完成了训练脚本，可以使用自定义脚本创建训练作业。如果您在本地开发的

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

需要排查执行命令的启动文件目录是否正确，具体操作如下：在ModelArts管理控制台，使用训练的自定义镜像创建训练作业时，“创建方式”选择“自定义算法”，“启动方式”选择“自定义”。例如，当训练代码启动脚本在OBS路径为“obs://bucket-name/app/code/train.py”，创

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
训练启动脚本说明和参数配置 - AI开发平台ModelArts

GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。对应训练参数 tensor-model-parallel-size 。 PP 4 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。对应训练参数 pipe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明参考
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型在使用Yi模型的chat版本时，由于transformer 4.3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以llama2-13b举例，使用训练作业运行：obs_pipeline.sh 训练脚本后，脚本自动执行数据集预处理，并检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行训练任务。如果未进行数据集预处理，则会自动执行scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过统一的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明以 llama2-13b 举例，运行 0_pl_pretrain_13b.sh 脚本。脚本同样还会检查是否已经完成权重转换的过程。如果已完成权重转换，则直接执行预训练任务。如果未进行权重转换，则会自动执行 scripts/llama2/2_convert_mg_hf

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）
Controlnet训练 - AI开发平台ModelArts

启动SD1.5训练服务使用ma-user用户执行如下命令运行训练脚本。 cd /home/ma-user/diffusers sh diffusers_controlnet_train.sh Step3 启动sdxl训练服务使用ma-user用户执行如下命令运行训练脚本。 cd

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.907）
训练过程中无法找到so文件 - AI开发平台ModelArts

编译生成so文件的cuda版本与训练作业的cuda版本不一致。处理方法编译环境的cuda版本与训练环境不一致，训练作业运行就会报错。例如：使用cuda版本为10的开发环境tf-1.13中编译生成的so包，在cuda版本为9.0训练环境中tf-1.12训练会报该错。编译环境和训练环境的cuda版本不一致时，可参考如下处理方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型在使用Yi模型的chat版本时，由于transformer 4.3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）
查询训练作业参数列表 - AI开发平台ModelArts

config_desc String 训练作业参数的描述信息。 create_time Long 训练作业的创建时间。 engine_type integer 训练作业的引擎类型。 engine_name String 训练作业的引擎名称。 engine_id Long 训练作业的引擎ID。 engine_version

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
业务代码问题 - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错日志出现ECC错误，导致训练作业失败超过最大递归深度导致训练作业失败使用预置算法训练时，训练失败，报“bndbox”错误训练作业状态显示“审核作业初始化” 训练作业进程异常退出训练作业进程被kill 父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过统一的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
SFT全参微调训练 - AI开发平台ModelArts

er文件，具体请参见训练tokenizer文件说明。 Step2 创建SFT全参微调训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。图1 选择镜像训练作业启动命令中输入：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
SFT微调训练任务 - AI开发平台ModelArts

SFT微调训练任务本章节以Qwen-14B为例，介绍SFT微调训练全过程。对于Qwen-7B和Qwen-72B，操作过程与Qwen-14B相同，只需修改对应参数即可。前提条件 SFT微调训练使用的数据集为alpaca_data数据，已经完成数据处理，具体参见SFT微调数据处理。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT微调训练
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

预训练预训练数据处理预训练任务断点续训练查看日志和性能父主题： Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904）
模型训练计费项 - AI开发平台ModelArts

模型训练计费项计费说明在ModelArts进行模型训练时，会产生计算资源和存储资源的累计值计费。计算资源为训练作业运行的费用。存储资源包括数据存储到OBS或SFS的费用。具体内容如表1所示。表1 计费项计费项计费项说明适用的计费模式计费公式计算资源公共资源池使用计算资源的用量。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项

总条数： 10000

上一页
1
...
13
14
15
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练输出路径被其他作业使用 - AI开发平台ModelArts

是否支持图像分割任务的训练？ - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

Controlnet训练 - AI开发平台ModelArts

训练过程中无法找到so文件 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

查询训练作业参数列表 - AI开发平台ModelArts

业务代码问题 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

SFT微调训练任务 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

模型训练计费项 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线