搜索_华为云

精度对齐 - AI开发平台ModelArts
精度对齐 - AI开发平台ModelArts

精度对齐长训Loss比对结果使用Msprobe工具分析偏差 Loss对齐结果父主题： Dit模型PyTorch迁移与精度性能调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优
Loss对齐结果 - AI开发平台ModelArts

Loss对齐结果在排查完精度偏差来源之后发现，Loss最大绝对偏差减少为0.0003，Loss结果对齐。需要注意训练引入随机性的目的是为了增加结果的鲁棒性，理论上不会对训练模型的收敛与否造成影响。此处做随机性固定主要的目的是为了训练结果可完全复现，从而实现NPU和标杆的精度对齐。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐
权限控制方式 - AI开发平台ModelArts

权限控制方式 IAM 依赖和委托工作空间父主题： Standard权限管理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
长训Loss比对结果 - AI开发平台ModelArts

Loss折线图，蓝色曲线为NPU训练Loss折线图。在整网训练单个Epoch情况下，Loss总体的绝对偏差大约为0.08181。父主题：精度对齐

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐
使用Msprobe工具分析偏差 - AI开发平台ModelArts

py中用等CPU侧初始化实现替换完成计算之后再切回device进行计算(下图第731行)。然后再比对分析发现所有API计算都已对齐结果，转而查看Loss对齐情况。父主题：精度对齐

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐
Dit模型PyTorch迁移与精度性能调优 - AI开发平台ModelArts

Dit模型PyTorch迁移与精度性能调优场景介绍及环境准备训练迁移适配精度对齐性能调优父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
精度调优前准备工作 - AI开发平台ModelArts

精度调优前准备工作在定位精度问题之前，首先需要排除训练脚本及参数配置等差异的干扰。目前大部分精度无法对齐的问题都是由于模型超参数、Python三方库版本、模型源码等与标杆环境（GPU/CPU）设置的不一致导致，为了在定位过程中少走弯路，需要在定位前先对训练环境及代码做有效排查。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

在左侧导航栏选择“模型训练 > 训练作业”进入训练作业页面，单击“创建训练作业”。填写创建训练作业相关信息。 “创建方式”：选择“自定义算法”。 “启动方式”：选择“预置框架”，下拉框中选择PyTorch，pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练
训练迁移快速入门案例 - AI开发平台ModelArts

基于DevServer适配PyTorch NPU训练指导》。该案例以ChatGLM-6B为例，介绍如何将模型迁移至昇腾设备上训练、模型精度对齐以及性能调优。迁移环境准备本文以弹性裸金属作为开发环境。弹性裸金属支持深度自定义环境安装，可以方便地替换驱动、固件和上层开发包，具有r

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
单模型性能测试工具Mindspore lite benchmark - AI开发平台ModelArts

单模型性能测试工具Mindspore lite benchmark 在模型精度对齐后，针对Stable Diffusion模型性能调优，您可以通过AOE工具进行自助性能调优，进一步可以通过profiling工具对于性能瓶颈进行分析，并针对性地做一些调优操作。您可以直接使用ben

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 性能调优
通过智能标注方式标注数据 - AI开发平台ModelArts

通过智能标注方式标注数据创建智能标注作业确认智能标注作业的数据难例使用自动分组智能标注作业父主题：标注ModelArts数据集中的数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据
数据导入方式介绍 - AI开发平台ModelArts

数据导入方式介绍数据集创建完成后，您还可以通过导入数据的操作，接入更多数据。ModelArts支持从不同数据源导入数据。从OBS导入数据到ModelArts数据集从DLI导入数据到ModelArts数据集从MRS导入数据到ModelArts数据集从DWS导入数据到ModelArts数据集

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

通常的做法是先用GPU单卡跑一遍训练，生成固定下来的随机数。然后NPU和GPU都用固定的随机数进行单机8卡训练，比较精度。训练精度对齐。对齐前2000步的loss，观察loss在极小误差范围内。 GPU环境下，使用Github中的官方代码跑训练任务。Github中的官方代码下载路径：https://github

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
依赖和委托 - AI开发平台ModelArts

obs:object:PutObject 管理OBS中的数据集标注OBS数据创建数据管理作业管理表格数据集 DLI dli:database:displayAllDatabases dli:database:displayAllTables dli:table:describeTable 在数据集中管理DLI数据

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
工作空间 - AI开发平台ModelArts
工作空间 - AI开发平台ModelArts

使用，用于日常调试的工作空间并限制仅让开发人员使用。通过这种方式让不同的企业角色只能在指定工作空间下使用资源。目前工作空间功能是“受邀开通”状态，作为企业用户您可以通过您对口的技术支持申请开通。父主题：权限控制方式

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
通过AK/SK认证的方式访问在线服务 - AI开发平台ModelArts

SDK访问在线服务，具体操作流程如下：获取AK/SK 获取在线服务信息发送预测请求方式一：使用Python语言发送预测请求方式二：使用Java语言发送预测请求 AK/SK签名认证方式，仅支持Body体12M以内，12M以上的请求，需使用Token认证。客户端须注意本地时

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
IAM - AI开发平台ModelArts
IAM - AI开发平台ModelArts

如表1所示，包括了ModelArts的所有系统策略权限。如果系统预置的ModelArts权限，不满足您的授权要求，可以创建自定义策略，可参考策略JSON格式字段介绍。表1 ModelArts系统策略策略名称描述类型 ModelArts FullAccess ModelArts管理员用户，拥有所有ModelArts服务的权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
通过APP认证的方式访问在线服务 - AI开发平台ModelArts

ppSecret认证鉴权方式发送预测请求方式三：使用Python语言通过AppCode认证鉴权方式发送预测请求方式四：使用Java语言通过AppCode认证鉴权方式发送预测请求约束限制调用API访问在线服务时，对预测请求体大小和预测时间有限制：请求体的大小不超过12MB，超过后请求会被拦截。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
通过Token认证的方式访问在线服务 - AI开发平台ModelArts

通过Token认证的方式访问在线服务如果在线服务的状态处于“运行中”，则表示在线服务已部署成功，部署成功的在线服务，将为用户提供一个可调用的API，此API为标准Restful API。在集成至生产环境之前，需要对此API进行调测，您可以使用以下方式向在线服务发起预测请求：方式一：使用图

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
训练作业卡死检测 - AI开发平台ModelArts

用dataloader读数据时，适当减小num_worker。常见案例：训练最后一个epoch卡死问题现象通过日志查看数据切分是否对齐，如果未对齐，容易导致部分进程完成训练退出，而部分训练进程因未收到其他进程反馈卡死，如下图同一时间有的进程在epoch48，而有的进程在epoch49。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性

总条数： 1067

上一页
1
2
3
4
5
...
54
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

精度对齐 - AI开发平台ModelArts

Loss对齐结果 - AI开发平台ModelArts

权限控制方式 - AI开发平台ModelArts

长训Loss比对结果 - AI开发平台ModelArts

使用Msprobe工具分析偏差 - AI开发平台ModelArts

Dit模型PyTorch迁移与精度性能调优 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

训练迁移快速入门案例 - AI开发平台ModelArts

单模型性能测试工具Mindspore lite benchmark - AI开发平台ModelArts

通过智能标注方式标注数据 - AI开发平台ModelArts

数据导入方式介绍 - AI开发平台ModelArts

Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

依赖和委托 - AI开发平台ModelArts

工作空间 - AI开发平台ModelArts

通过AK/SK认证的方式访问在线服务 - AI开发平台ModelArts

IAM - AI开发平台ModelArts

通过APP认证的方式访问在线服务 - AI开发平台ModelArts

通过Token认证的方式访问在线服务 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线