搜索_华为云

预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

预训练前提条件已上传训练代码、训练权重文件和数据集到OBS中，具体参考代码上传至OBS。 Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。代码目录选择：OBS桶路径下的 llm_train/AscendSpeed

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910）
查看训练作业日志 - AI开发平台ModelArts

训练日志包括普通训练日志和Ascend相关日志。普通日志说明：当使用Ascend之外的资源训练时仅产生普通训练日志，普通日志中包含训练进程日志、pip-requirement.txt安装日志和ModelArts平台日志。 Ascend场景日志说明：使用Ascend资源训练时会产

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
训练作业性能问题 - AI开发平台ModelArts

训练作业性能问题训练作业性能降低父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
管理训练作业版本 - AI开发平台ModelArts

管理训练作业版本训练作业是否支持定时或周期调用？父主题： Standard训练作业

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业
创建训练作业镜像保存任务 - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。请求参数表2 请求Body参数参数

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询训练作业列表 - AI开发平台ModelArts

JobResponse 参数参数类型描述 kind String 训练作业类型。默认使用job。枚举值： job 训练作业。 metadata JobMetadata object 训练作业元信息。 status Status object 训练作业状态信息。创建作业无需填写。 algorithm

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.911）
训练作业失败，如何使用开发环境调试训练代码？ - AI开发平台ModelArts

训练作业失败，如何使用开发环境调试训练代码？在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VsCode）联接云上环境调试请参考使用本地IDE开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

nizer文件，具体请参见训练tokenizer文件说明。 Step2 创建预训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。图1 选择镜像训练作业启动命令中输入： cd

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
创建训练任务 - AI开发平台ModelArts

单击“提交”，在“信息确认”页面，确认训练作业的参数信息，确认无误后单击“确定”。训练作业创建完成后，后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间，根据您的训练业务逻辑和选择的资源不同，训练时长将持续几十分钟到几小时不等。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
训练环境中不同规格资源“/cache”目录的大小 - AI开发平台ModelArts

训练环境中不同规格资源“/cache”目录的大小在创建训练作业时可以根据训练作业的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源，不同资源规格有不同的容量。 k8s磁盘的驱逐策略是90%，

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
训练过程读取数据 - AI开发平台ModelArts

训练过程读取数据在ModelArts上训练模型，输入输出数据如何配置？如何提升训练效率，同时减少与OBS的交互？大量数据文件，训练过程中读取数据效率低？使用Moxing时如何定义路径变量？父主题： Standard训练作业

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业
自动学习使用子账号单击开始训练出现错误Modelarts.0010 - AI开发平台ModelArts

自动学习使用子账号单击开始训练出现错误Modelarts.0010 用主账号给子账号配置ModelArts所使用的OBS桶的ACL权限即可。父主题：模型训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
查询训练作业镜像保存任务 - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。请求参数无响应参数状态码： 200

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
训练脚本说明 - AI开发平台ModelArts

训练脚本说明 yaml配置文件参数配置说明各个模型深度学习训练加速框架的选择模型NPU卡数取值表各个模型训练前文件替换父主题：主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
获取训练作业支持的公共规格 - AI开发平台ModelArts

获取训练作业支持的公共规格功能介绍获取训练作业支持的公共规格。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-job-flavors

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
LoRA训练 - AI开发平台ModelArts
LoRA训练 - AI开发平台ModelArts

LoRA训练本章节介绍SDXL&SD 1.5模型的LoRA训练过程。LoRA训练是指在已经训练好的模型基础上，使用新的数据集进行LoRA微调以优化模型性能的过程。训练前需要修改数据集路径、模型路径。脚本里写到datasets路径即可。 run_lora_sdxl中的vae路径要准确写到sdxl_vae

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
训练作业 - AI开发平台ModelArts
训练作业 - AI开发平台ModelArts

训练作业 OBS操作相关故障云上迁移适配故障硬盘限制故障外网访问限制权限问题 GPU相关问题业务代码问题预置算法运行故障训练作业运行失败专属资源池创建训练作业训练作业性能问题 Ascend相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除
JupyterLab开发平台 - 网络智能体

JupyterLab开发平台创建特征工程数据处理模型训练迁移学习学件模型归档如何恢复异常的JupyterLab环境父主题：特征工程

 帮助中心 > 网络智能体 > 模型训练服务 > 用户指南 > 特征工程

总条数： 10000

上一页
1
...
4
5
6
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

训练作业性能问题 - AI开发平台ModelArts

管理训练作业版本 - AI开发平台ModelArts

创建训练作业镜像保存任务 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

训练作业失败，如何使用开发环境调试训练代码？ - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

训练环境中不同规格资源“/cache”目录的大小 - AI开发平台ModelArts

训练过程读取数据 - AI开发平台ModelArts

自动学习使用子账号单击开始训练出现错误Modelarts.0010 - AI开发平台ModelArts

查询训练作业镜像保存任务 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

获取训练作业支持的公共规格 - AI开发平台ModelArts

LoRA训练 - AI开发平台ModelArts

训练作业 - AI开发平台ModelArts

JupyterLab开发平台 - 网络智能体

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线