搜索_华为云

训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
创建训练作业 - AI开发平台ModelArts

创建训练作业创建训练作业时提示“对象目录大小/数量超过限制”，如何解决？训练环境中不同规格资源“/cache”目录的大小训练作业的“/cache”目录是否安全？训练作业一直在等待中（排队）？创建训练作业时，超参目录为什么有的是/work有的是/ma-user？在Mod

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业
Standard推理部署 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 ModelArts Standard推理服务支持VPC直连的高速访问通道配置 ModelArts Standard的WebSocket在线服务全流程开发从0-1制作自定义镜像并创建AI应用使用AppCode认证鉴权方式进行在线预测

 帮助中心 > AI开发平台ModelArts > 最佳实践
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909）
CUDA和CUDNN - AI开发平台ModelArts
CUDA和CUDNN - AI开发平台ModelArts

方法。专属池驱动版本如何升级？当专属资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力，具体操作请参见资源池驱动升级。父主题： FAQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
训练脚本说明参考 - AI开发平台ModelArts

训练脚本说明参考训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
删除训练作业标签 - AI开发平台ModelArts

TmsTagForDelete objects 要删除的标签列表。表3 TmsTagForDelete 参数是否必选参数类型描述 key 是 String TMS标签的key。 value 否 String TMS标签的value，非必填。响应参数状态码： 204 表4

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
训练脚本说明参考 - AI开发平台ModelArts

训练脚本说明参考训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明离线训练安装包准备说明父主题：主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910）
管理Standard专属资源池 - AI开发平台ModelArts

修复Standard专属资源池故障节点修改Standard专属资源池支持的作业类型迁移Standard专属资源池和网络至其他工作空间配置Standard专属资源池可访问公网使用TMS标签实现资源分组管理管理Standard专属资源池的游离节点释放Standard专属资源池和删除网络父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
删除可视化作业 - AI开发平台ModelArts

请求是否成功。 error_code String 调用失败时的错误码，具体请参见错误码。调用成功时无此字段。 error_message String 调用失败时的错误信息。调用成功时无此字段。请求示例如下以删除作业ID为10的可视化作业为例。 DELETE https://en

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
分布式模型训练 - AI开发平台ModelArts

分布式模型训练分布式训练功能介绍创建单机多卡的分布式训练（DataParallel）创建多机多卡的分布式训练（DistributedDataParallel）示例：创建DDP分布式训练（PyTorch+GPU）示例：创建DDP分布式训练（PyTorch+NPU）父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
执行训练任务 - AI开发平台ModelArts

必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
执行训练任务 - AI开发平台ModelArts

必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

Code插件后，再执行2。图2 远端已上传关闭VS Code所有窗口，回到ModelArts控制台Notebook实例界面，再次单击实例“操作”列的上的“更多>VS Code接入”按钮。父主题： VS Code连接开发环境失败常见问题

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
报错“The VS Code Server failed to start”如何解决？ - AI开发平台ModelArts

Ctrl+Shift+P，macOS：Cmd+Shift+P），搜索“Kill VS Code Server on Host”，选择出问题的实例进行自动清除，然后重新进行连接。图1 清除异常的实例父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
获取动态挂载OBS实例信息列表 - AI开发平台ModelArts

Array of DataVolumesRes objects 数据。 pages Integer 总的页数。 size Integer 每一页的数量。 total Long 总的记录数量。表3 DataVolumesRes 参数参数类型描述 category String 存储类型。可选值为OBS。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
创建工作流定时调度 - AI开发平台ModelArts

WorkflowSchedulePolicies 参数是否必选参数类型描述 on_failure 否 String 定时调度策略中的标记，失败时触发。 on_running 否 String 定时调度策略中的标记，running时触发。响应参数状态码： 201 表4 响应Body参数参数参数类型描述

 帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理

总条数： 2152

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练脚本说明 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

Standard推理部署 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

CUDA和CUDNN - AI开发平台ModelArts

训练脚本说明参考 - AI开发平台ModelArts

删除训练作业标签 - AI开发平台ModelArts

训练脚本说明参考 - AI开发平台ModelArts

管理Standard专属资源池 - AI开发平台ModelArts

删除可视化作业 - AI开发平台ModelArts

分布式模型训练 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

报错“The VS Code Server failed to start”如何解决？ - AI开发平台ModelArts

获取动态挂载OBS实例信息列表 - AI开发平台ModelArts

创建工作流定时调度 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线