搜索_华为云

精度问题诊断 - AI开发平台ModelArts

该方式主要是通过模型替换，先定位出具体哪个模型引入的误差，进一步诊断具体的模型中哪个算子或者操作导致效果问题，模型替换原理如下图所示。通过设置开关选项（是否使用onnx模型），控制模型推理时，模型使用的是onnx模型或是mindir的模型。图1 精度诊断流程一般情况下，onnx模型推理的结果可以认为是标杆数据，单

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

镜像地址详见基础镜像章节）。如果您使用的是ModelArts基础镜像，可先尝试直接使用工具命令，如果相关命令不存在则需要参考工具安装指导自行安装。表1 ModelArts昇腾迁移调优工具总览表使用场景类别工具名称工具描述工具安装使用指导 PyTorch GPU训练迁移至PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
执行训练任务 - AI开发平台ModelArts

/home/ma-user/ws/LLaMAFactory/LLaMA-Factory/data 【可选】dataset_info.json配置文件所属的绝对路径；如使用自定义数据集，yaml配置文件需添加此参数。是否选择加速深度学习训练框架Deepspeed，可参考表1选择不同的框架。是，选用ZeRO

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

Arts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
eagle投机小模型训练 - AI开发平台ModelArts

eagle投机小模型训练本章节提供eagle小模型自行训练的能力，客户可通过本章节，使用自己的数据进行训练eagle小模型，并使用自行训练的小模型进行eagle推理。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
eagle 投机小模型训练 - AI开发平台ModelArts

eagle 投机小模型训练本章节提供eagle小模型自行训练的能力，客户可通过本章节，使用自己的数据进行训练eagle小模型，并使用自行训练的小模型进行eagle推理。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

对应存储位置（OBS桶）的操作权限。解决方法：使用账号登录OBS，并将对应OBS桶的访问权限授予该IAM用户。详细操作指导请参见：被授权用户。 IAM用户获得权限后，登录ModelArts管理控制台，删除该实例，然后重新使用此OBS路径创建Notebook实例。报错503

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

增加了和OBS交互工作的整个训练流程如下：建议使用OBSutil作为和OBS交互的工具，如何在本机安装obsutil可以参考obsutil安装和配置。训练数据、代码、模型下载。（本地使用硬盘挂载或者docker cp，在ModelArts上使用OBSutil）启动脚本，用法无切换，一般就是到达执行目录，然后python

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
ModelArts预置镜像更新说明 - AI开发平台ModelArts

ModelArts预置镜像更新说明本章节提供了ModelArts预置镜像的变更说明，比如依赖包的变化，方便用户感知镜像能力的差异，减少镜像使用问题。统一镜像更新说明表1 统一镜像更新说明镜像名称更新时间更新说明 mindspore_2.3.0-cann_8.0.rc1-py_3

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
推理性能测试 - AI开发平台ModelArts

获取数据集。动态benchmark需要使用数据集进行测试，可以使用公开数据集，例如Alpaca、ShareGPT。也可以根据业务实际情况，使用generate_datasets.py脚本生成和业务数据分布接近的数据集。方法一：使用公开数据集 ShareGPT下载地址: https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
推理性能测试 - AI开发平台ModelArts

10 获取数据集。动态benchmark需要使用数据集进行测试，可以使用公开数据集，例如Alpaca、ShareGPT。也可以根据业务实际情况，使用generate_datasets.py脚本生成和业务数据分布接近的数据集。方法一：使用公开数据集 ShareGPT下载地址: https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
语言模型推理性能测试 - AI开发平台ModelArts

获取数据集。动态benchmark需要使用数据集进行测试，可以使用公开数据集，例如Alpaca、ShareGPT。也可以根据业务实际情况，使用generate_datasets.py脚本生成和业务数据分布接近的数据集。方法一：使用公开数据集 ShareGPT下载地址: https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

-V)查看该镜像的cuda版本（customize_service.py编写指导请见模型推理代码编写说明）。确认该cuda版本与您安装的mmcv版本是否匹配。部署时是否需要使用GPU，取决于的模型需要用到CPU还是GPU，以及推理脚本如何编写。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本教程案例是基于ModelArts Standard运行的，需要购买并开通ModelArts专属资源池和OBS桶。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备权重准备所需的权重文件。准备代码准备AscendFactory训练代码。准备镜像准备训练模型适用的容器镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912）
执行训练任务 - AI开发平台ModelArts

llama3系列 2、PPO训练暂不支持 ZeRO-3存在通信问题，如llama3-70B使用ZeRO-3暂不支持训练策略类型全参full，配置如下： finetuning_type: full lora，如dpo仅支持此策略；配置如下： finetuning_type: lora

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
执行训练任务 - AI开发平台ModelArts

llama3系列 2、PPO训练暂不支持 ZeRO-3存在通信问题，如llama3-70B使用ZeRO-3暂不支持训练策略类型全参full，配置如下： finetuning_type: full lora，如dpo仅支持此策略；配置如下： finetuning_type: lora

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
发布技术文章（AI说） - AI开发平台ModelArts

发布技术文章（AI说） AI Gallery中的“AI说”，是一个AI开发人员的交流园地。在这里可以阅读其他用户分享的技术文章，并参与评论。也可以发布分享个人技术文章。前提条件已入驻AI Gallery。发布技术文章进入AI Gallery首页，单击“AI说”，在下拉框中单击“AI说

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 参加活动
如何关闭Mox的warmup - AI开发平台ModelArts

och（warmup），由于网络的参数是随机初始化的，如果一开始就采用较大的学习率会出现数值不稳定的问题，这是使用warm up的原因。等到训练过程基本稳定之后就可以使用原先设定的初始学习率进行训练。原因分析 Tensorflow分布式有多种执行模式，mox会通过4次执行50

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
配置用户缺失的服务权限 - AI开发平台ModelArts

配置用户缺失的服务权限在使用MaaS服务时，如果未配置或缺失相关权限，会出现授权相关提示，请您及时处理。如果未处理，会导致部分功能出现异常。添加依赖服务授权由于大模型即服务平台的数据存储、模型导入以及部署上线等功能依赖OBS、SW等服务，需获取依赖服务授权后才能正常使用相关功能。如果

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 配置MaaS访问授权
专属资源池VPC打通 - AI开发平台ModelArts

专属资源池VPC打通通过打通VPC，可以方便用户跨VPC使用资源，提升资源利用率。步骤一：打通VPC 通过打通VPC，可以方便用户跨VPC使用资源，提升资源利用率。登录ModelArts管理控制台，在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”，在“网络”

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置

总条数： 2203

上一页
1
...
72
73
74
...
111
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

精度问题诊断 - AI开发平台ModelArts

ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

eagle 投机小模型训练 - AI开发平台ModelArts

创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

ModelArts预置镜像更新说明 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

发布技术文章（AI说） - AI开发平台ModelArts

如何关闭Mox的warmup - AI开发平台ModelArts

配置用户缺失的服务权限 - AI开发平台ModelArts

专属资源池VPC打通 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线