搜索_华为云

训练作业性能降低 - AI开发平台ModelArts

训练作业性能降低问题现象使用ModelArts平台训练算法训练耗时增加。原因分析可能存在如下原因：平台上的代码经过修改优化、训练参数有过变更。训练的GPU硬件工作出现异常。处理方法请您对作业代码进行排查分析，确认是否对训练代码和参数进行过修改。检查资源分配情况（

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业性能问题
创建训练作业 - AI开发平台ModelArts

job_id Long 训练作业的ID。 job_name String 训练作业的名称 status Int 训练作业的运行状态，详细作业状态列表请查看作业状态参考。 create_time Long 训练作业的创建时间，时间戳格式。 version_id Long 训练作业的版本ID。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
Tensorflow训练 - 云容器引擎 CCE
Tensorflow训练 - 云容器引擎 CCE

该示例的主要功能是基于Tensorflow的分布式架构，利用卷积神经网络（CNN）中的ResNet50模型对随机生成的图像进行训练，每次训练32张图像（batch_size），共训练100次（step），记录每次训练过程中的性能（image/sec）。 apiVersion: "kubeflow.org/v1"

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
训练 - 弹性文件服务 SFS
训练 - 弹性文件服务 SFS

训练上传数据至OBS并预热到SFS Turbo中创建训练任务父主题：实施步骤

 帮助中心 > 弹性文件服务 SFS > 最佳实践 > 面向AI场景使用OBS+SFS Turbo的存储加速实践 > 实施步骤
模型训练 - 网络智能体
模型训练 - 网络智能体

模型训练模型训练简介创建模型训练工程创建联邦学习工程创建训练服务创建超参优化服务创建Tensorboard 打包训练模型父主题：用户指南

 帮助中心 > 网络智能体 > 模型训练服务 > 用户指南
删除训练作业版本 - AI开发平台ModelArts

删除训练作业版本功能介绍删除训练作业一个版本。此接口为异步接口，作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI DELETE /v1/{project_id}/training-jobs/{job_id}/versions/{version_id} 参数说明如表1所示。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
什么是模型训练服务 - 网络智能体

什么是模型训练服务模型训练服务为开发者提供电信领域一站式模型开发服务，涵盖数据预处理、特征提取、模型训练、模型验证、推理执行和重训练全流程。服务提供开发环境和模拟验证环境及ICT网络领域AI资产，包括项目模板、算法、特征分析及处理SDK，帮助开发者提速AI应用开发，保障模型应用效果。

帮助中心 > 网络智能体 > 模型训练服务 > 产品介绍
打包训练模型 - 网络智能体
打包训练模型 - 网络智能体

打包训练模型系统支持将训练好的模型归档以及打包成模型包。用户可以基于模型包创建验证服务、训练服务。模型验证服务详情可以在模型验证查看。模型训练服务详情可以在创建训练服务查看。模型包主要包括模型验证服务的推理主入口函数、算法工程操作流、模型文件等。已发布的模型可以在模型管理查看。

帮助中心 > 网络智能体 > 模型训练服务 > 用户指南 > 模型训练
训练专属预置镜像列表 - AI开发平台ModelArts

训练专属预置镜像列表 ModelArts平台提供了Tensorflow，PyTorch，MindSpore等常用深度学习任务的基础镜像，镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时，您可以基于这些基础镜像制作一个新的镜像并进行训练。训练基础镜像列表

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
ModelArts中常用概念 - AI开发平台ModelArts

指按某种策略由已知判断推出新判断的思维过程。人工智能领域下，由机器模拟人类智能，使用构建的神经网络完成推理过程。在线推理在线推理是对每一个推理请求同步给出推理结果的在线服务（Web Service）。批量推理批量推理是对批量数据进行推理的批量作业。昇腾芯片昇腾芯片又叫As

帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
模型训练 - 可信智能计算服务 TICS

模型训练企业A在完成特征选择后，可以单击右下角的“启动训练”按钮，配置训练的超参数并开始训练。等待训练完成后就可以看到训练出的模型指标。模型训练完成后如果指标不理想可以重复调整7、8两步的所选特征和超参数，直至训练出满意的模型。父主题：使用TICS可信联邦学习进行联邦建模

 帮助中心 > 可信智能计算服务 TICS > 开发指南 > 使用场景 > 纵向联邦建模场景 > 使用TICS可信联邦学习进行联邦建模
更新训练作业描述 - AI开发平台ModelArts

更新训练作业描述功能介绍更新训练作业的描述。 URI PUT /v1/{project_id}/training-jobs/{job_id} 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

预训练前提条件已上传训练代码、训练权重文件和数据集到OBS中，具体参考代码上传至OBS。 Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。代码目录选择：OBS桶路径下的llm_train/AscendSpeed代码目录。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
附录：指令微调训练常见问题 - AI开发平台ModelArts

附录：指令微调训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考各个模型深度学习训练加速框

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
训练管理 - AI开发平台ModelArts
训练管理 - AI开发平台ModelArts

训练管理创建算法查询算法列表查询算法详情更新算法删除算法获取支持的超参搜索算法创建训练实验创建训练作业查询训练作业详情更新训练作业描述删除训练作业终止训练作业查询训练作业指定任务的日志（预览）查询训练作业指定任务的日志（OBS链接）查询训练作业指定任务的运行指标

 帮助中心 > AI开发平台ModelArts > API参考
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
训练模型 - 企业级AI应用开发专业套件 ModelArts Pro

0,1]。 “训练轮次”指模型训练中遍历数据集的次数。 “语种”指文本数据的语言种类。确认信息后，单击“开始训练”。模型训练一般需要运行一段时间，等模型训练完成后，“模型训练”页面下方显示训练详情。查看训练详情模型训练完成后，可在“模型训练”页面查看“训练详情”，包括“准确率变化情况”和“误差变化”。

帮助中心 > 企业级AI应用开发专业套件 ModelArts Pro > 用户指南 > 自然语言处理套件 > 多语种文本分类工作流
训练模型 - 企业级AI应用开发专业套件 ModelArts Pro

模型训练一般需要运行一段时间，等模型训练完成后，“开发应用>模型训练”页面下方显示查看训练详情。查看训练详情模型训练完成后，可在“模型训练”页面查看“训练详情”，包括“准确率变化情况”和“误差变化”。图1 模型训练模型如何提升效果检查是否存在训练数据过少的情况，建议每个类别的图片量不少于100个，如果低于这个量级建议扩充。

帮助中心 > 企业级AI应用开发专业套件 ModelArts Pro > 用户指南 > 视觉套件 > 云状识别工作流
训练模型 - 企业级AI应用开发专业套件 ModelArts Pro

模型训练一般需要运行一段时间，等模型训练完成后，“开发应用>模型训练”页面下方显示查看训练详情。查看训练详情模型训练完成后，可在“模型训练”页面查看“训练详情”，包括“准确率变化情况”和“误差变化”。图1 模型训练模型如何提升效果检查是否存在训练数据过少的情况，建议每个类别的图片量不少于100个，如果低于这个量级建议扩充。

帮助中心 > 企业级AI应用开发专业套件 ModelArts Pro > 用户指南 > 视觉套件 > 刹车盘识别工作流

总条数： 8367

上一页
1
...
4
5
6
...
419
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业性能降低 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

Tensorflow训练 - 云容器引擎 CCE

训练 - 弹性文件服务 SFS

模型训练 - 网络智能体

删除训练作业版本 - AI开发平台ModelArts

什么是模型训练服务 - 网络智能体

打包训练模型 - 网络智能体

训练专属预置镜像列表 - AI开发平台ModelArts

ModelArts中常用概念 - AI开发平台ModelArts

模型训练 - 可信智能计算服务 TICS

更新训练作业描述 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

训练管理 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

训练模型 - 企业级AI应用开发专业套件 ModelArts Pro

训练模型 - 企业级AI应用开发专业套件 ModelArts Pro

训练模型 - 企业级AI应用开发专业套件 ModelArts Pro

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线