搜索_华为云

性能调优总体原则和思路 - AI开发平台ModelArts

Host算子下发和Device算子执行综上所述，性能优化的总体原则为：减少Host算子下发时间、减少Device算子执行时间。训练代码迁移完成后，如存在性能不达标的问题，可参考下图所示流程进行优化。建议按照单卡、单机多卡、多机多卡的流程逐步做性能调优。图2 性能调优总体思路为了便于用户快速进行迁移调

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
精度调优总体思路 - AI开发平台ModelArts

精度调优总体思路 PyTorch大模型训练的精度问题的分析、定位可以参考如下思路：大模型训练通常使用多机训练，鉴于多机训练复现问题的成本较高，且影响因子较多，建议用户先减少模型层数，使模型能够单机训练，确认单机训练是否也存在精度问题，若存在，则使用下述手段定位精度问题，使得单机精度达标，然后再恢复层数拉起多机训练。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
自动模型优化介绍 - AI开发平台ModelArts

参的调优，在速度和精度上超过人工调优。 ModelArts支持以下三种超参搜索算法：贝叶斯优化（SMAC） TPE算法模拟退火算法（Anneal）贝叶斯优化（SMAC）贝叶斯优化假设超参和目标函数存在一个函数关系。基于已搜索超参的评估值，通过高斯过程回归来估计其他搜索点处

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
自动模型优化（AutoSearch） - AI开发平台ModelArts

自动模型优化（AutoSearch）自动模型优化介绍创建自动模型优化的训练作业父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
创建自动模型优化的训练作业 - AI开发平台ModelArts

对于用户希望优化的超参，需在“超参”设置中定义，可以给定名称、类型、默认值、约束等，具体设置方法可以参考表6。单击勾选“自动搜索”，为算法设置算法搜索功能。自动搜索作业运行过程中，ModelArts后台通过指标正则表达式获取搜索指标参数，朝指定的优化方向进行超参优化。用户需要在

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
网络调整公告 - AI开发平台ModelArts

网络调整公告 ModelArts针对网络进行安全加固和优化，新的网络模式可以为用户的资源提供更好的隔离性，提升云上资源的安全。为保障您的网络安全，建议您后续使用新网络创建Standard资源池。表1 上线局点上线局点上线时间华东二 2024年10月29日 20:00 父主题：

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品变更公告
使用Advisor工具分析生成调优建议 - AI开发平台ModelArts

Terminal日志信息的概览建议。包含Detail信息及修改示例的HTML信息。按照建议信息做如下修改：亲和优化器使能，在train.py中修改优化器为apex混合精度模式下的DDP优化方式（修改点：注释第161和167行，增加第168~170行）。二进制调优使能，减少算子编译耗时，在train

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 性能调优
如何定位Workflow运行报错 - AI开发平台ModelArts

如何定位Workflow运行报错使用run模式运行工作流报错时，分析解决思路如下：确认安装的SDK包是否是最新版本，避免出现包版本不一致问题。检查编写的SDK代码是否符合规范，具体可参考相应的代码示例。检查运行过程中输入的内容是否正确，格式是否与提示信息中要求的一致。根

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Workflow
ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

post(url, data=body) print(response.content) 由于高速通道特性会缺失负载均衡的能力，因此在多实例时需要自主制定负载均衡策略。父主题： Standard推理部署

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

创建训练作业界面无云存储名称和挂载路径排查思路问题现象创建训练作业界面没有云存储名称和挂载路径这两个选项。原因分析用户的专属资源池没有进行网络打通，或者用户没有创建过SFS。处理方法在专属资源池列表中，单击资源池“ID/名称”，进入详情页。单击右上角“配置NAS VPC”，检查是否开启了NAS

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
Ascend-vLLM介绍 - AI开发平台ModelArts

型的调整和优化。高性能：通过自研特性和针对NPU的优化，如PD分离、前后处理、sample等，实现了高效的推理性能。 Ascend-vLLM架构 Ascend-vLLM架构图如下所示。算子：使用CANN基础算子和高性能融合算子，同时支持用户自定义算子，持续迭代优化，提高推理效率。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
训练迁移快速入门案例 - AI开发平台ModelArts

训练迁移快速入门案例本篇指导是迁移的总体思路介绍，便于用户对迁移过程有一个整体的认识。如果您希望通过具体案例直接实操，请参考《主流开源大模型基于DevServer适配PyTorch NPU训练指导》。该案例以ChatGLM-6B为例，介绍如何将模型迁移至昇腾设备上训练、模型精度对齐以及性能调优。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

自定义镜像训练作业失败定位思路问题现象使用自定义镜像训练作业时，训练失败。定位思路确定镜像来源确认该自定义镜像的基础镜像是否来源于ModelArts提供的基础镜像，推荐用户使用ModelArts的基础镜像构建自定义镜像，具体请参见使用ModelArts的基础镜像构建新的训练镜像。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

post(url, data=body) print(response.content) 由于高速通道特性会缺失负载均衡的能力，因此在多实例时需要自主制定负载均衡策略。父主题：访问在线服务支持的访问通道

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

DPO(Direct Preference Optimization)：直接偏好优化方法，通过直接优化语言模型来实现对大模型输出的精确把控，不用进行强化学习，也可以准确判断和学习到使用者的偏好，最后，DPO算法还可以与其他优化算法相结合，进一步提高深度学习模型的性能。 SFT监督式微调(Self-training

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
训练作业日志中提示“No module named .*” - AI开发平台ModelArts

训练作业日志中提示“No module named .*” 用户请按照以下思路进行逐步排查：检查依赖包是否存在检查依赖包路径是否能被识别检查训练作业使用的资源规格是否正确建议与总结检查依赖包是否存在如果依赖包不存在，您可以使用以下两种方式完成依赖包的安装。方式一（推

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

处理？问题现象服务部署、启动、升级和修改时，拉取镜像失败。原因分析节点磁盘不足，镜像大小过大。解决方法首先考虑优化镜像，减小节点磁盘的占用。优化镜像无法解决问题，请联系系统管理员处理。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

DPO(Direct Preference Optimization)：直接偏好优化方法，通过直接优化语言模型来实现对大模型输出的精确把控，不用进行强化学习，也可以准确判断和学习到使用者的偏好，最后，DPO算法还可以与其他优化算法相结合，进一步提高深度学习模型的性能。 RM奖励模型(Reward

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

DPO(Direct Preference Optimization)：直接偏好优化方法，通过直接优化语言模型来实现对大模型输出的精确把控，不用进行强化学习，也可以准确判断和学习到使用者的偏好，最后，DPO算法还可以与其他优化算法相结合，进一步提高深度学习模型的性能。 RM奖励模型(Reward

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

DPO(Direct Preference Optimization)：直接偏好优化方法，通过直接优化语言模型来实现对大模型输出的精确把控，不用进行强化学习，也可以准确判断和学习到使用者的偏好，最后，DPO算法还可以与其他优化算法相结合，进一步提高深度学习模型的性能。 RM奖励模型(Reward

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）

总条数： 274

上一页
1
2
3
4
5
...
14
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

性能调优总体原则和思路 - AI开发平台ModelArts

精度调优总体思路 - AI开发平台ModelArts

自动模型优化介绍 - AI开发平台ModelArts

自动模型优化（AutoSearch） - AI开发平台ModelArts

创建自动模型优化的训练作业 - AI开发平台ModelArts

网络调整公告 - AI开发平台ModelArts

使用Advisor工具分析生成调优建议 - AI开发平台ModelArts

如何定位Workflow运行报错 - AI开发平台ModelArts

ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

Ascend-vLLM介绍 - AI开发平台ModelArts

训练迁移快速入门案例 - AI开发平台ModelArts

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

训练作业日志中提示“No module named .*” - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线