搜索_华为云

预训练任务 - AI开发平台ModelArts

ning”关键字时，表示开始训练。训练过程中，训练日志会在最后的Rank节点打印。图1 等待模型载入更多查看训练日志和性能操作，请参考查看日志和性能章节。如果需要使用断点续训练能力，请参考断点续训练章节修改训练脚本。父主题：预训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 预训练
SFT全参微调训练 - AI开发平台ModelArts

作业日志选择OBS中的路径，ModelArts的训练作业的日志信息则保存该路径下。最后，请参考查看日志和性能章节查看LoRA微调的日志和性能。了解更多ModelArts训练功能，可查看模型开发简介。 Step2 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
训练脚本存放目录说明 - AI开发平台ModelArts

# 安装模型运行环境 └── qwen-vl.patch # 使用git apply修改模型相关代码父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
训练脚本参数说明 - AI开发平台ModelArts

# 安装模型运行环境 └── qwen-vl.patch # 使用git apply修改模型相关代码父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
训练tokenizer文件说明 - AI开发平台ModelArts

件chatglm3-6b/tokenization_chatglm.py 。文件最后几处代码中需要修改，具体位置可根据上下文代码信息进行查找，修改后如图所示。图1 修改ChatGLMv3-6B tokenizer文件图2 修改ChatGLMv3-6B tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
删除DevServer实例 - AI开发平台ModelArts

SDK代码示例调试功能。 URI DELETE /v1/{project_id}/dev-servers/{id} 表1 路径参数参数是否必选参数类型描述 id 是 String DevServer ID。 project_id 是 String 用户项目ID，获取方法请参见获取项目ID和名称。

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
停止DevServer实例 - AI开发平台ModelArts

K代码示例调试功能。 URI PUT /v1/{project_id}/dev-servers/{id}/stop 表1 路径参数参数是否必选参数类型描述 id 是 String DevServer ID。 project_id 是 String 用户项目ID，获取方法请参见获取项目ID和名称。

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
上传算法至SFS - AI开发平台ModelArts

$IMAGE_DATA_PATH --cfg ./configs/swin/swin_base_patch4_window7_224_22k.yaml 推荐先使用单机单卡运行脚本，待正常运行后再改用多机多卡运行脚本。多机多卡run.sh中的“VC_WORKER_HOSTS”、“VC_WORKER_

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

he”，实际下载的数据会翻倍。例如只下载了2.5TB的数据，程序就显示空间不够而失败，因为/cache只有4TB的可用空间。处理方法在使用Tensorflow多节点作业下载数据时，正确的下载逻辑如下： import argparse parser = argparse.ArgumentParser()

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
开启训练故障自动重启功能 - AI开发平台ModelArts

自动从训练中断的位置接续训练，加载中断生成的checkpoint，中间不需要改动任何参数（支持预训练、LoRA微调、SFT微调）。如果要使用自动重启功能，资源规格必须选择八卡规格。当前功能还处于试验阶段，只有llama3-8B/70B适配。父主题：主流开源大模型基于Standard适配PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
预训练数据处理 - AI开发平台ModelArts

bin和alpaca_text_document.idx文件。自定义数据如果是用户自己准备的数据集，可以使用Ascendspeed代码仓中的转换工具将json格式数据集转换为训练中使用的.idx + .bin格式。 #示例： #1.将准备好的json格式数据集存放于/home/ma-

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
报名实践活动（实践） - AI开发平台ModelArts

Gallery中，可以报名参加正在进行中的实践活动。查找实践活动进入AI Gallery首页，单击“实践”，在下拉框中单击“实践 >”，进入实践首页。在实践页面，有“进行中”、“即将开始”和“已结束”三种状态的实践活动筛选方式。图1 查找实践活动单击右上方的“我的实践”可以跳转到个人中心（“我的Gallery

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 参加活动
用户AK-SK认证模式 - AI开发平台ModelArts

redentials.csv”，可打开文件查看访问密钥（Access Key Id和Secret Access Key）。 “project_id”即项目ID，获取方式如下：在“我的凭证”页面，单击“API凭证”，在“项目列表”中可查看项目ID和名称（即“项目”）。多项目时，展

 帮助中心 > AI开发平台ModelArts > SDK参考 > Session鉴权
导出ModelArts数据集中的数据为新数据集 - AI开发平台ModelArts

数据导出成功后，您可以前往您设置的保存路径，查看到存储的数据。当导出方式选择为新数据集时，在导出成功后，您可以前往“数据集”列表中，查看到新的数据集。在“数据集概览页”，单击右上角“导出历史”，在弹出的“任务历史”对话框中，可以查看该数据集之前的导出任务历史。父主题：导出ModelArts数据集中的数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导出ModelArts数据集中的数据
训练tokenizer文件说明 - AI开发平台ModelArts

件chatglm3-6b/tokenization_chatglm.py 。文件最后几处代码中需要修改，具体位置可根据上下文代码信息进行查找，修改后如图所示。图1 修改ChatGLMv3-6B tokenizer文件图2 修改ChatGLMv3-6B tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

add_argument('--init_method', default='tcp://xxx',help="init-method") 通过使用解析方式args, unparsed = parser.parse_known_args()代替args = parser.parse_args()解决该问题。代码示例如下：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设置成0，就可以将预检功能关闭。环境变量说明参考查看训练容器环境变量。父主题： Ascend相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
预训练数据处理 - AI开发平台ModelArts

bin和alpaca_text_document.idx文件。图1 处理后的数据自定义数据如果是用户自己准备的数据集，可以使用Ascendspeed代码仓中的转换工具将json格式数据集转换为训练中使用的.idx + .bin格式。 #示例 #1.将准备好的json格式数据集存放于/home/ma-u

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 预训练
预训练数据处理 - AI开发平台ModelArts

bin和alpaca_text_document.idx文件。图1 处理后的数据自定义数据如果是用户自己准备的数据集，可以使用Ascendspeed代码仓中的转换工具将json格式数据集转换为训练中使用的.idx + .bin格式。 #示例： #1.将准备好的json格式数据集存放于/home/ma-

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 预训练
注册伙伴 - AI开发平台ModelArts
注册伙伴 - AI开发平台ModelArts

信息。单击“提交”，AI Gallery的运营人员将会审核您的申请，后续您可以在“我的Gallery > 合作伙伴”里查看审核进展以及审核结果。图1 查看审核进度父主题：合作伙伴

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 合作伙伴

总条数： 2744

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

预训练任务 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

训练脚本存放目录说明 - AI开发平台ModelArts

训练脚本参数说明 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

删除DevServer实例 - AI开发平台ModelArts

停止DevServer实例 - AI开发平台ModelArts

上传算法至SFS - AI开发平台ModelArts

Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

开启训练故障自动重启功能 - AI开发平台ModelArts

预训练数据处理 - AI开发平台ModelArts

报名实践活动（实践） - AI开发平台ModelArts

用户AK-SK认证模式 - AI开发平台ModelArts

导出ModelArts数据集中的数据为新数据集 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

预训练数据处理 - AI开发平台ModelArts

预训练数据处理 - AI开发平台ModelArts

注册伙伴 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线