搜索_华为云

设置断点续训练 - AI开发平台ModelArts

设置断点续训练什么是断点续训练断点续训练是指因为某些原因（例如容错重启、资源抢占、作业卡死等）导致训练作业还未完成就被中断，下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。断点续训练是通过checkpoint机制实现。 checkp

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
获取API授权关系列表 - AI开发平台ModelArts

路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 service_id 是 String 服务ID。 api_id 是 String API编号。表2 Query参数参数是否必选参数类型描述

 帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
ECS获取基础镜像 - AI开发平台ModelArts

创建镜像组织在SWR服务页面创建镜像组织。图1 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
查询可视化作业详情 - AI开发平台ModelArts

-jobs/{job_id} 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 String 可视化作业ID。请求消息无请求参数。响应消息响应参数如表2所示。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
训练作业日志中提示“No module named .*” - AI开发平台ModelArts

训练作业日志中提示“No module named .*” 用户请按照以下思路进行逐步排查：检查依赖包是否存在检查依赖包路径是否能被识别检查训练作业使用的资源规格是否正确建议与总结检查依赖包是否存在如果依赖包不存在，您可以使用以下两种方式完成依赖包的安装。方式一（推荐使用）：在创

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
更新Workflow Execution - AI开发平台ModelArts

ion_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 execution_id 是 String 工作流执行ID。请求参数

 帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
查询训练作业版本列表 - AI开发平台ModelArts

参数说明如表1所示。表1 路径参数参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 Long 训练作业的ID。表2 Query参数参数是否必选参数类型说明 per_page 否 Integer

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
ECS中构建新镜像 - AI开发平台ModelArts

me}：在step5中，使用Dockerfile创建的新镜像名称。 <镜像仓库地址>：可在SWR控制台上查询，容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>：前面步骤中自己创建的组织名称。示例：ma-group <镜像名称>:<版本名称>：定义镜像名称。示例：p

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
ECS中构建新镜像 - AI开发平台ModelArts

me}：在step5中，使用Dockerfile创建的新镜像名称。 <镜像仓库地址>：可在SWR控制台上查询，容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>：前面步骤中自己创建的组织名称。示例：ma-group <镜像名称>:<版本名称>：定义镜像名称。示例：p

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作 > 准备镜像
ECS中构建新镜像 - AI开发平台ModelArts

me}：在step5中，使用Dockerfile创建的新镜像名称。 <镜像仓库地址>：可在SWR控制台上查询，容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>：前面步骤中自己创建的组织名称。示例：ma-group <镜像名称>:<版本名称>：定义镜像名称。示例：p

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
ECS中构建新镜像（可选） - AI开发平台ModelArts

me}：在step5中，使用Dockerfile创建的新镜像名称。 <镜像仓库地址>：可在SWR控制台上查询，容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>：前面步骤中自己创建的组织名称。示例：ma-group <镜像名称>:<版本名称>：定义镜像名称。示例：p

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
管理Workflow StepExecution - AI开发平台ModelArts

actions 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 execution_id 是 String 工作流执行ID。 step_execution_id

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
删除训练作业 - AI开发平台ModelArts

-jobs/{job_id} 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 Long 训练作业的ID。请求消息无请求参数。响应消息响应参数如表2所示。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
增量模型训练 - AI开发平台ModelArts

增量模型训练什么是增量训练增量训练（Incremental Learning）是机器学习领域中的一种训练方法，它允许人工智能（AI）模型在已经学习了一定知识的基础上，增加新的训练数据到当前训练流程中，扩展当前模型的知识和能力，而不需要从头开始。增量训练不需要一次性存储所有的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
管理开发环境实例 - AI开发平台ModelArts

参数说明如表1所示。表1 参数说明参数是否必选参数类型说明。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 instance_id 是 String 实例ID。请求消息请求参数如表2所示。表2 请求参数参数是否必选参数类型说明。 action

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

it userdata机制拉取cce-agent，但是在服务器上查看没有拉cce-agent的动作，理论上该动作是cloudinit中的脚本在创建时自动执行的，可能是由于安装脚本没有注入userdata或者注入了但未执行。经查看是由于userdata未执行，可能原因为服务器A制作镜像时没有清理残留目录导致，即：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
训练作业性能降低 - AI开发平台ModelArts

请您对作业代码进行排查分析，确认是否对训练代码和参数进行过修改。检查资源分配情况（cpu/mem/gpu/snt9/infiniband）是否符合预期。通过CloudShell登录到Linux工作页面，检查GPU工作情况：通过输入“nvidia-smi”命令，查看GPU工作是否异常。通过输入“nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业性能问题
训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

处理步骤查询训练作业的日志和监控信息，是否存在明确的OOM报错信息。是，训练作业的日志里存在OOM报错，执行2。否，训练作业的日志里没有OOM报错，但是存在监控指标异常，执行3。排查训练代码是否存在不断占用资源的代码，使得资源未被合理使用。是，优化代码，等待作业运行正常。否

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

布式训练功能介绍。 1 更多选项永久保存日志选择是否打开“永久保存日志”开关。关闭事件通知选择是否打开“事件通知”开关。关闭自动停止当使用付费资源时，可以选择是否打开“自动停止”开关。关闭自动重启选择是否打开“自动重启”开关。关闭表3 多个调优任务的参数配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理

总条数： 1549

上一页
1
...
7
8
9
...
78
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

设置断点续训练 - AI开发平台ModelArts

获取API授权关系列表 - AI开发平台ModelArts

ECS获取基础镜像 - AI开发平台ModelArts

查询可视化作业详情 - AI开发平台ModelArts

训练作业日志中提示“No module named .*” - AI开发平台ModelArts

更新Workflow Execution - AI开发平台ModelArts

查询训练作业版本列表 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像（可选） - AI开发平台ModelArts

管理Workflow StepExecution - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

管理开发环境实例 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

训练作业性能降低 - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线