搜索_华为云

准备工作 - AI开发平台ModelArts
准备工作 - AI开发平台ModelArts

准备工作准备环境准备代码准备镜像环境准备数据（可选）父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
基于ModelArts Standard运行GPU训练作业 - AI开发平台ModelArts

基于ModelArts Standard运行GPU训练作业在ModelArts Standard上运行GPU训练作业的场景介绍在ModelArts Standard运行GPU训练作业的准备工作在ModelArts Standard上运行GPU单机单卡训练作业在ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练
不同模型推荐的参数与NPU卡数设置 - AI开发平台ModelArts

不同模型推荐的参数与NPU卡数设置表1 不同模型推荐的参数与NPU卡数设置模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值优化工具 (Deepspeed) 规格与节点数 Qwen-VL Qwen-VL 7B full 2048 gr

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练脚本存放目录说明不同模型推荐的参数与NPU卡数设置训练tokenizer文件说明父主题： Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
文生视频模型训练推理 - AI开发平台ModelArts

文生视频模型训练推理 CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.912） CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911） Open-Sora1.2基于DevServer适配PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践
使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

read_csv(ff, **param) 必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
训练精度测试 - AI开发平台ModelArts

<cfgs_yaml_file>：精度评估配置的yaml文件地址，如代码目录中accuracy_cfgs.yaml相对或绝对路径 --dataset <dataset>：评估数据集；可选值：all、mmlu、ceval，默认值为all，用户只需选择参数即可，数据集路径eval接口已指定好。 --model_name

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具
msprobe精度分析工具使用指导 - AI开发平台ModelArts

randn在GPU和NPU上固定随机种子后，仍然生成不同的随机张量。对于上述场景，用户需要将网络中的randn在CPU上完成后再转到对应device。例如，StableDiffusion中需要在forward过程中逐步生成随机噪声。这样在Host侧生成的随机张量能够保证一样，搬移到NPU或者GPU设备上仍然一样。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
准备BF16权重 - AI开发平台ModelArts

通过下述地址直接下载HuggingFace社区中开发者贡献的已经转换成功的BF16权重。建议在Server机器上创建${path-to-file}/deepseekV3-bf16或${path-to-file}/deepseekR1-bf16目录，并直接将权重文件下载到该目录中。 opensource

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 准备权重
创建可视化作业 - AI开发平台ModelArts

project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求消息请求参数如表2所示。表2 请求参数参数是否必选参数类型说明 job_name 是 String 可视化作业名称。限制为1-20位只含数字，字母，下划线，中划线的名称。 job_desc

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
查询处理任务列表 - AI开发平台ModelArts

当前任务是否是该版本的同类型任务中的最新任务。 name String 数据处理任务名称。 result Object 数据处理任务输出的结果，status为2时会出现该字段，用于特征分析任务。 status Integer 数据处理的状态。可选值如下： 0：初始化 1：运行中 2：已完成 3：失败

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
OOM导致训练作业失败 - AI开发平台ModelArts

empty_cache() 必现的问题，使用本地Pycharm远程连接Notebook调试超参。如果还存在问题，可能需要提工单进行定位，甚至需要隔离节点修复。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

经提供了迁移好的开箱即用模型，且保证了较优的精度和性能。如果用户业务同样使用这些开源模型，建议直接使用ModelArts提供的模型运行指导，其余场景再考虑使用本指导自行迁移和调优。迁移流程模型迁移主要指将开源社区中实现过的模型或客户自研模型迁移到昇腾AI处理器上，需要保证模型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
VS Code连接开发环境时报错Missing GLIBC，Missing required dependencies - AI开发平台ModelArts

additional information. 原因分析该问题为用户使用VS Code 1.86版本软件导致的，需要用户使用较低版本的VS Code 。解决方案使用VS Code 1.85版本软件。下载链接：https://code.visualstudio.com/updates/v1_85。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
系统容器异常退出 - AI开发平台ModelArts

原因分析出现该问题的可能原因如下： OBS相关错误。 OBS文件不存在。The specified key does not exist。用户OBS权限不足。 OBS限流。 OBS其他问题。磁盘空间不足。处理方法如果是OBS相关错误。 OBS文件不存在。The specified

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
指令监督微调训练任务 - AI开发平台ModelArts

Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
推理部署计费项 - AI开发平台ModelArts

专属资源池的费用请参考专属资源池计费项。 - - 存储资源对象存储OBS 用于存储批量部署服务的输入和输出数据。具体费用可参见对象存储价格详情。注意：存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除，则会按照OBS的计费规则进行持续计费。按需计费包年/包月创建桶不收取费用，按实际使用的存储容量和时长收费

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
guided-decoding - AI开发平台ModelArts

类型type、属性properties，必须属性required 、定义definitions等，JSON Schema通过定义对象属性、类型、格式的方式来引导模型生成一个包含用户信息的JSON对象。其优势主要如下：上下文引导：通过提供特定的提示或上下文信息，模型可以更好地理解生成内容的方向。约束生成：可以设定

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
Finetune训练 - AI开发平台ModelArts

false 启动SD1.5 Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh run_finetune.sh 所有数据保存在auto_log/avg_step_time.txt文本中 auto_log/log/目录下存放各个shapes的数据父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
断点续训和故障快恢说明 - AI开发平台ModelArts

gatron格式权重文件。 lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应迭代次数）保持一致，不一致则修改latest_checkpointed_iteration

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考

总条数： 2466

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备工作 - AI开发平台ModelArts

基于ModelArts Standard运行GPU训练作业 - AI开发平台ModelArts

不同模型推荐的参数与NPU卡数设置 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

文生视频模型训练推理 - AI开发平台ModelArts

使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

准备BF16权重 - AI开发平台ModelArts

创建可视化作业 - AI开发平台ModelArts

查询处理任务列表 - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

VS Code连接开发环境时报错Missing GLIBC，Missing required dependencies - AI开发平台ModelArts

系统容器异常退出 - AI开发平台ModelArts

指令监督微调训练任务 - AI开发平台ModelArts

推理部署计费项 - AI开发平台ModelArts

guided-decoding - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线