搜索_华为云

训练作业 - AI开发平台ModelArts
训练作业 - AI开发平台ModelArts

训练作业创建训练作业训练作业调测查询训练作业列表查询训练作业详情更新训练作业描述删除训练作业终止训练作业查询训练日志查询训练作业的运行指标父主题：训练管理

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理
终止训练作业 - AI开发平台ModelArts

hetero_job：异构作业 autosearch_job：自动搜索作业 mrs_job：mrs作业 edge_job：边缘作业 metadata JobMetadata object 训练作业元信息。 status Status object 训练作业状态信息。创建作业无需填写。 algorithm

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
查询训练作业列表 - AI开发平台ModelArts

String 训练作业类型。默认使用job。枚举值： job：训练作业 hetero_job：异构作业 autosearch_job：自动搜索作业 mrs_job：mrs作业 edge_job：边缘作业 metadata JobMetadata object 训练作业元信息。 status

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

性能调优性能测试 benchmark工具也可用于性能测试，其主要的测试指标为模型单次前向推理的耗时。在性能测试任务中，与精度测试不同，并不需要用户指定对应的输入（inDataFile）和输出的标杆数据（benchmarkDataFile），benchmark工具会随机生成一个输

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
创建自动模型优化的训练作业 - AI开发平台ModelArts

开启超参搜索功能后，用户可以设置搜索指标、搜索算法和搜索算法参数。三个参数显示的支持值与算法管理模块的超参设置对应。完成超参搜索作业的创建后，训练作业需要运行一段时间。查看超参搜索作业详情训练作业运行结束后，可以查看自动超参搜索结果判断此训练作业是否满意。如果训练作业是超参搜索作业，进入训练作业详情页

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
查询训练作业详情 - AI开发平台ModelArts

job：训练作业 hetero_job：异构作业 autosearch_job：自动搜索作业 mrs_job：mrs作业 edge_job：边缘作业 metadata JobMetadata object 训练作业元信息。 status Status object 训练作业状态信息。创建作业无需填写。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
查看日志和性能 - AI开发平台ModelArts

中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。吞吐量（tokens/s/p）：可通过表1表格中output_dir参数值路径下的trainer_log

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
查看日志和性能 - AI开发平台ModelArts

存放路径为：对应修改重要参数表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。吞吐量（tokens/s/p）：可通过修改重要参数表格中output_dir参数值路径下的trainer_log

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901）
查看日志和性能 - AI开发平台ModelArts

日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件。查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。吞吐量（tokens/s/p）：可通过表1表格中output_dir参数值路径下的trainer_log

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
查看日志和性能 - AI开发平台ModelArts

存放路径为：对应修改重要参数表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。吞吐量（tokens/s/p）：可通过修改重要参数表格中output_dir参数值路径下的trainer_log

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
查看日志和性能 - AI开发平台ModelArts

中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。吞吐量（tokens/s/p）：可通过表1表格中output_dir参数值路径下的trainer_log

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。吞吐量（tokens/s/p）：可通过表1表格中output_dir参数值路径下的train_results

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
查看日志和性能 - AI开发平台ModelArts

中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。吞吐量（tokens/s/p）：可通过表1表格中output_dir参数值路径下的train_results

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
修改模型服务QPS - AI开发平台ModelArts

修改模型服务QPS 流量限制QPS是评估模型服务处理能力的关键指标，它指示系统在高并发场景下每秒能处理的请求量。这一指标直接关系到模型的响应速度和处理效率。不当的QPS配置可能导致用户等待时间延长，影响满意度。因此，能够灵活调整模型的QPS对于保障服务性能、优化用户体验、维持业务流畅及控制成本至关重要。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 管理我的服务
管理同步在线服务 - AI开发平台ModelArts

管理同步在线服务查看在线服务详情查看在线服务的事件管理在线服务生命周期修改在线服务配置在云监控平台查看在线服务性能指标集成在线服务API至生产环境中应用设置在线服务故障自动重启父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
Lite Cluster高危操作一览表 - AI开发平台ModelArts

升级、卸载volcano插件。可能导致作业调度异常。中回退版本、重装插件。卸载ICAgent插件。可能导致日志、监控功能异常。中回退版本、重装插件。 helm 升级、回退、卸载os-node-agent。导致驱动升级、故障检测、指标采集、节点运维功能异常。高联系华为云技术支持重装os-node-agent。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
创建Workflow训练作业节点 - AI开发平台ModelArts

创建Workflow训练作业节点功能介绍该节点通过对算法、输入、输出的定义，实现ModelArts作业管理的能力。主要用于数据处理、模型训练、模型评估等场景。主要应用场景如下：当需要对图像进行增强，对语音进行除噪等操作时，可以使用该节点进行数据的预处理。对于一些物体检测，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
msprobe精度分析工具使用指导 - AI开发平台ModelArts

Tools工具链下精度调试部分的工具包，其通过采集和对比标杆（GPU/CPU）环境和昇腾环境上运行训练时的差异点来判断问题所在，主要包括精度预检、精度比对和梯度监控等功能。更多内容请参考msprobe工具介绍。一般场景的训练模型都是包括随机种子、数据集Shuffle、网络结构Drop

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
什么是Workflow - AI开发平台ModelArts

Learning）和“DevOps”（Development and Operations）的组合实践。机器学习开发流程主要可以定义为四个步骤：项目设计、数据工程、模型构建、部署落地。AI开发并不是一个单向的流水线作业，在开发的过程中，会根据数据和模型结果进行多轮的实验迭代。算法工程师会根据数据特征以及数据的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
查看训练作业资源占用情况 - AI开发平台ModelArts

如何判断训练作业资源利用率高低在模型训练的训练作业列表页可以查看作业资源利用率情况。当作业worker-0实例的GPU/NPU的平均利用率低于50%时，在训练作业列表中会进行告警提示。图2 作业列表显示作业资源利用率情况此处的作业资源利用率只涉及GPU和NPU资源。作业work

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业

总条数： 939

上一页
1
2
3
4
5
...
47
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

性能调优 - AI开发平台ModelArts

创建自动模型优化的训练作业 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

修改模型服务QPS - AI开发平台ModelArts

管理同步在线服务 - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

创建Workflow训练作业节点 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

什么是Workflow - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线