搜索_华为云

性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

性能调优 Profiling数据采集使用Advisor工具分析生成调优建议调优前后性能对比父主题： Dit模型PyTorch迁移与精度性能调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优
Loss对齐结果 - AI开发平台ModelArts

Loss对齐结果在排查完精度偏差来源之后发现，Loss最大绝对偏差减少为0.0003，Loss结果对齐。需要注意训练引入随机性的目的是为了增加结果的鲁棒性，理论上不会对训练模型的收敛与否造成影响。此处做随机性固定主要的目的是为了训练结果可完全复现，从而实现NPU和标杆的精度对齐。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐
模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

模型转换报错如何查看日志和定位？通过如下的配置项打开对应的模型转换日志，可以看到更底层的报错。如配置以下的环境变量之后，再重新转换模型，导出对应的日志和dump图进行分析：报错日志中搜到“not support onnx data type”，表示MindSpore暂不支持该算子。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
advisor调优总体步骤 - AI开发平台ModelArts

对于上述提到的性能劣化且出现step不固定的场景，优先考虑使用动态profiling方式进行采集。如图3中所示"if step==5"处，需要在业务代码中添加如下判断逻辑：记录每一个step的耗时，如果某个step的耗时出现异常，即大于正常step耗时或者均值耗时的20%（根据训练日志

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
长训Loss比对结果 - AI开发平台ModelArts

长训Loss比对结果在单卡环境下，执行一个Epoch训练任务，GPU和NPU训练叠加效果如下：上图中的红色曲线为GPU Loss折线图，蓝色曲线为NPU训练Loss折线图。在整网训练单个Epoch情况下，Loss总体的绝对偏差大约为0.08181。父主题：精度对齐

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐
Profiling数据采集 - AI开发平台ModelArts

Profiling数据采集在train.py的main()函数Step迭代处添加配置，添加位置如下图所示：此处需要注意的是prof.step()需要加到dataloder迭代循环的内部以保证采集单个Step迭代的Profiling数据。更多信息，请参见Ascend PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 性能调优
使用Msprobe工具分析偏差 - AI开发平台ModelArts

使用Msprobe工具分析偏差观察上一章Loss趋势，在首个Step有较小偏差，所以对第一个Step进行比对分析。此处使用Msprobe的整网Dump和比对分析功能。首先安装社区Msprobe工具，命令如下： pip install mindstudio-probe 使能工具

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
调优前后性能对比 - AI开发平台ModelArts

调优前后性能对比在完成上一章几类调优方式之后，在单卡场景下实测性能调优比对结果如下表所示：设备 batch_size Steps/Sec 1p-GPU Ant8 16 3.17 1p-NPU snt9b 313T 16 2.17 1p-NPU snt9b 313T调优后 16

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 性能调优
使用AI案例 - AI开发平台ModelArts

使用AI案例在AI Gallery中，您可以根据您的业务场景和诉求，查找并订阅相应的场景化AI案例。订阅后可以一键运行案例。 AI Gallery中分享的案例支持免费订阅，但在使用过程中如果消耗了硬件资源进行部署，管理控制台将根据实际使用情况收取硬件资源的费用。前提条件注册

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
使用Advisor工具分析生成调优建议 - AI开发平台ModelArts

使用Advisor工具分析生成调优建议关于Advisor使用及安装过程请参见昇腾社区Gitee。最后生成导出的各类场景的建议包含以下两种： Terminal日志信息的概览建议。包含Detail信息及修改示例的HTML信息。按照建议信息做如下修改：亲和优化器使能，在train

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 性能调优
升级Lite Cluster资源池驱动 - AI开发平台ModelArts

如果升级方式为安全升级，则根据滚动节点数量选择无业务的节点，隔离节点并滚动升级。如果升级方式为强制升级，则根据滚动节点数量随机选择节点，隔离节点并滚动升级。无业务节点定义：在资源池详情“节点管理”页签下，如果GPU/Ascend的可用数等于总数，则为无业务节点。滚动驱动升级时，驱动异常的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
升级Standard专属资源池驱动 - AI开发平台ModelArts

如果升级方式为安全升级，则根据滚动实例数量选择无业务的节点，隔离节点并滚动升级。如果升级方式为强制升级，则根据滚动实例数量随机选择节点，隔离节点并滚动升级。无业务节点定义：在资源池详情“节点”页签下，如果GPU/Ascend的可用数等于总数，则为无业务节点。滚动驱动升级时，驱动异常的节

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
如何保证自定义镜像能不因为超过35G而保存失败？ - AI开发平台ModelArts

如何保证自定义镜像能不因为超过35G而保存失败？可以从如下几方面考虑：请选择较小的基础镜像创建Notebook实例，这样在实例中可操作的空间才会大，可自由安装的包才能更多，一般建议原始的启动Notebook的基础镜像在SWR侧查看大小不要超过6G。镜像保存主要保存在/hom

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
训练tokenizer文件说明 - AI开发平台ModelArts

tonkenization_qwen.py会在cache中读取SimSun.ttf 文件，如果没有，就会联网下载，ModelArts作业在执行过程中可能不能请求网络，会遇到报错。 # 直接手动下载 https://qianwen-res.oss-cn-beijing.aliyuncs.com

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
训练tokenizer文件说明 - AI开发平台ModelArts

tonkenization_qwen.py会在cache中读取SimSun.ttf 文件，如果没有，就会联网下载，ModelArts作业在执行过程中可能不能请求网络，会遇到报错。 # 直接手动下载 https://qianwen-res.oss-cn-beijing.aliyuncs.com

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

Cluster资源池创建完成，使用一段时间后，由于用户业务的变化，对于资源池资源量的需求可能会产生变化，面对这种场景，ModelArts Lite Cluster资源池提供了扩缩容功能，用户可以根据需求动态调整资源。缩容操作可能影响到正在运行的业务，建议用户在业务空窗期进行缩容，或进入资源池详情页

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
下载数据 - AI开发平台ModelArts
下载数据 - AI开发平台ModelArts

在AI Gallery中，您可以下载满足业务需要的数据集。前提条件注册并登录华为云，且创建好OBS桶用于存储数据。下载数据集登录“AI Gallery”。选择“资产集市 > 数据集”，进入数据页面，该页面展示了所有共享的数据集。搜索业务所需的数据集，请参见查找和收藏资产。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
Lite Cluster高危操作一览表 - AI开发平台ModelArts

Cluster资源时，可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因，风险操作包括但不限于以下内容。高危操作风险等级说明：高：对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。中：对于可能导致安全风险及可靠性降低的高危操作。低：高、中风险等级外的其他高危操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读

总条数： 335

上一页
1
...
4
5
6
...
17
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

性能调优 - AI开发平台ModelArts

Loss对齐结果 - AI开发平台ModelArts

模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

advisor调优总体步骤 - AI开发平台ModelArts

长训Loss比对结果 - AI开发平台ModelArts

Profiling数据采集 - AI开发平台ModelArts

使用Msprobe工具分析偏差 - AI开发平台ModelArts

日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

调优前后性能对比 - AI开发平台ModelArts

使用AI案例 - AI开发平台ModelArts

使用Advisor工具分析生成调优建议 - AI开发平台ModelArts

升级Lite Cluster资源池驱动 - AI开发平台ModelArts

升级Standard专属资源池驱动 - AI开发平台ModelArts

如何保证自定义镜像能不因为超过35G而保存失败？ - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

下载数据 - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线