搜索_华为云

训练作业 - AI开发平台ModelArts
训练作业 - AI开发平台ModelArts

训练作业创建训练作业查询训练作业列表查询训练作业版本详情删除训练作业版本查询训练作业版本列表创建训练作业版本停止训练作业版本更新训练作业描述删除训练作业获取训练作业日志的文件名查询预置算法查询训练作业日志父主题：训练管理（旧版）

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

它的主要任务是根据给定的输入和反馈来预测奖励值，从而指导学习算法的方向，帮助强化学习算法更有效地优化策略 PPO强化学习(Proximal Policy Optimization)：是一种在强化学习中广泛使用的策略优化算法。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
查询AI应用详情 - AI开发平台ModelArts

doc_name String 文档名称，支持1-48位可见字符（含中文），只能以英文大小写字母或者中文字符开头，名称可以包含字母、中文、数字、中划线、下划线。

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
什么是Workflow - AI开发平台ModelArts

图1 MLOps MLOps的整条链路需要有一个工具去承载，MLOps打通了算法开发到交付运维的全流程。和以往的开发交付不同，以往的开发与交付过程是分离的，算法工程师开发完的模型，一般都需要交付给下游系统工程师。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
发布Workflow到ModelArts - AI开发平台ModelArts

ID，自行前往算法管理页面进行查看，可选参数，此处以订阅算法举例 item_version_id="10.0.0", # 订阅算法的版本号，可选参数，此处以订阅算法举例 parameters=[ wf.AlgorithmParameters

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 发布Workflow
下线公告 - AI开发平台ModelArts
下线公告 - AI开发平台ModelArts

自动学习模块的文本分类功能下线公告【下线公告】华为云ModelArts服务旧版数据集下线公告【下线公告】华为云ModelArts服务模型转换下线公告【下线公告】华为云ModelArts MindStudio/ML Studio/ModelBox镜像下线公告【下线公告】华为云ModelArts算法套件下线公告

 帮助中心 > AI开发平台ModelArts > 服务公告
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

它的主要任务是根据给定的输入和反馈来预测奖励值，从而指导学习算法的方向，帮助强化学习算法更有效地优化策略 PPO强化学习(Proximal Policy Optimization)：是一种在强化学习中广泛使用的策略优化算法。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

它的主要任务是根据给定的输入和反馈来预测奖励值，从而指导学习算法的方向，帮助强化学习算法更有效地优化策略 PPO强化学习(Proximal Policy Optimization)：是一种在强化学习中广泛使用的策略优化算法。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
训练作业运行失败 - AI开发平台ModelArts

训练作业运行失败训练作业运行失败排查指导训练作业运行失败，出现NCCL报错自定义镜像训练作业失败定位思路使用自定义镜像创建的训练作业一直处于运行中使用自定义镜像创建训练作业找不到启动文件训练作业的监控内存指标持续升高直至作业失败订阅算法物体检测YOLOv3_ResNet18

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

计算公式是有假设的：总线带宽 = 算法带宽 * 2 ( N-1 ) / N ，算法带宽 = 数据量 / 时间但是这个计算公式的前提是用Ring算法，Tree算法的总线带宽不可以这么计算。如果Tree算法算出来的总线带宽相当于是相对Ring算法的性能加速。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
断点续训和故障快恢说明 - AI开发平台ModelArts

lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应迭代次数）保持一致，不一致则修改latest_checkpointed_iteration.txt内容与

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
断点续训和故障快恢说明 - AI开发平台ModelArts

lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应迭代次数）保持一致，不一致则修改latest_checkpointed_iteration.txt内容与

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
断点续训和故障快恢说明 - AI开发平台ModelArts

lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应迭代次数）保持一致，不一致则修改latest_checkpointed_iteration.txt内容与

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
获取Execution列表 - AI开发平台ModelArts

填写1-64位，仅包含英文、数字、下划线（_）和中划线（-），并且以英文开头的名称。

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
断点续训和故障快恢说明 - AI开发平台ModelArts

lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应迭代次数）保持一致，不一致则修改latest_checkpointed_iteration.txt内容与

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
msprobe精度分析工具使用指导 - AI开发平台ModelArts

需要注意的是，部分模型算法本身存在固有的随机性，在使用上述方法固定随机性后，如果使用工具也未能找到出问题的API，需要分析是否由算法本身的随机性导致。父主题： PyTorch迁移精度调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
上传数据至OBS（首次使用时需要） - AI开发平台ModelArts

上传方法请参考上传数据和算法至OBS（首次使用时需要）。父主题：多机多卡

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
创建数据集版本 - AI开发平台ModelArts

label_task_id="IbAhFai5KXWC3gthUfz", description="dataset version from label task") 参数说明表1 请求参数参数是否必选参数类型描述 name 否 String 版本名称，必须是中文、字母、数字

 帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集版本管理
总览Workflow工作流 - AI开发平台ModelArts

填写1-64位，仅包含英文、数字、下划线（_）和中划线（-），并且以英文开头的名称。 description 否 String 工作流描述信息。请求参数无响应参数状态码：200 表3 响应Body参数参数参数类型描述 total Integer 总数。

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
业务代码问题 - AI开发平台ModelArts

attribute 'dtype'” 日志提示“No module name 'unidecode'” 分布式Tensorflow无法使用“tf.variable” MXNet创建kvstore时程序被阻塞，无报错日志出现ECC错误，导致训练作业失败超过最大递归深度导致训练作业失败使用预置算法训练时

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业

总条数： 407

上一页
1
...
10
11
12
...
21
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

查询AI应用详情 - AI开发平台ModelArts

什么是Workflow - AI开发平台ModelArts

发布Workflow到ModelArts - AI开发平台ModelArts

下线公告 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

训练作业运行失败 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

获取Execution列表 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

上传数据至OBS（首次使用时需要） - AI开发平台ModelArts

创建数据集版本 - AI开发平台ModelArts

总览Workflow工作流 - AI开发平台ModelArts

业务代码问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线