搜索_华为云

常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误父主题：主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
执行训练任务 - AI开发平台ModelArts

执行训练任务步骤一：上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件、自定义数据集，可以忽略此步骤。未上传训练权重文件，具体参考上传代码和权重文件到工作环境。使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 修改训练超参配置以llama2-13b SFT微调为例，执行脚本 0_pl_sft_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.911）
SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 在Notebook中修改训练超参配置以llama2-13b SFT微调为例，执行脚本 0_pl_sft_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前，针对ChatGLMv3-6B模型中的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

准备环境本文档中的模型运行环境是ModelArts Lite Server。请参考本文档要求准备资源环境。资源规格要求计算规格：不同模型训练推荐的NPU卡数请参见表2。硬盘空间：至少200GB。 Ascend资源规格： Ascend: 1*ascend-snt9b表示Ascend单卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 修改训练超参配置以llama2-13b SFT微调为例，执行脚本 0_pl_sft_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910）
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

准备环境本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。资源规格要求计算规格：不同模型训练推荐的NPU卡数请参见表1。硬盘空间：至少200GB。 Ascend资源规格： Ascend: 1*ascend-snt9b表示Ascend单卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误父主题：主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910）
在SLB中创建资源 - 应用平台 AppStage

在SLB中创建资源前提条件需要具备AppStage服务运维岗位权限或运维管理员权限，权限申请操作请参见申请权限。在SLB中创建资源进入AppStage运维中心。在顶部导航栏选择服务。单击，选择“微服务开发 > 负载均衡”。选择左侧导航栏的“资源管理 > 资源”。单

 帮助中心 > 应用平台 AppStage > 运行时引擎用户指南 > 配置运行时引擎负载均衡 > 在SLB中创建和管理资源
配置微服务治理 - 应用平台 AppStage

配置微服务治理微服务部署完后，您可以根据微服务的运行情况进行微服务的治理。治理策略说明支持负载均衡、限流、故障隔离、容错、降级、熔断、错误注入、超时时间和OLC流控等策略的配置。各治理项说明如表1所示。表1 治理策略说明名称说明负载均衡微服务一般会部署多个实例，负

 帮助中心 > 应用平台 AppStage > 运行时引擎用户指南 > 管理Cloud Map中的服务资源 > 查看注册到CloudMap的微服务信息
在部署服务创建部署模板 - 应用平台 AppStage

在部署服务创建部署模板支持对虚拟机变更步骤进行编排，通过配置变更任务，使用模板完成虚拟机部署。前提条件已获取服务运维岗位权限或运维管理员权限，权限申请操作请参见申请权限。创建部署模板进入AppStage运维中心。在顶部导航栏选择服务。单击，选择“运维 > 部署服务”。

帮助中心 > 应用平台 AppStage > 运维中心用户指南 > 使用部署服务进行自动化变更 > 使用部署包部署虚拟机
创建过滤器在告警接入时过滤告警 - 应用平台 AppStage

创建过滤器在告警接入时过滤告警通过创建过滤器，在告警接入时过滤指定告警，过滤后，告警会进入Bypass的数据库，不会进入告警处理模块，即不会显示在告警列表。前提条件已获取服务运维岗位权限或运维管理员权限，权限申请操作请参见申请权限。创建过滤器过滤告警进入AppStage运维中心。

帮助中心 > 应用平台 AppStage > 运维中心用户指南 > 使用监控服务进行资源及业务监控 > 管理运维中心异常告警
查看已上架的EAP动作 - 应用平台 AppStage

查看已上架的EAP动作动作是部署服务当前对各模块操作的封装，如部署任务，执行作业，确认告警等。可以查看当前EAP已经上架了哪些动作，包含哪些能力。查看已上架的EAP动作进入AppStage运维中心。在顶部导航栏选择服务。单击，选择“运维 > 监控服务（ServiceInsight）”。

帮助中心 > 应用平台 AppStage > 运维中心用户指南 > 使用监控服务进行资源及业务监控 > 使用运维中心EAP进行流程管理
创建运维事件通知组 - 应用平台 AppStage

创建运维事件通知组通知组通常包括运维代表、开发代表、相关领域专家等。通知组在运维事件发送通知、WarRoom基于通知组方式发送通知时使用。前提条件已获取服务运维岗位权限或运维管理员权限，权限申请操作请参见申请权限。创建通知组进入AppStage运维中心。在顶部导航栏选择服务。

帮助中心 > 应用平台 AppStage > 运维中心用户指南 > 使用监控服务进行资源及业务监控 > 使用运维中心通报运维事件
升级弹性云服务器主机已安装的OpsAgent - 应用平台 AppStage

升级弹性云服务器主机已安装的OpsAgent 可以在“弹性云服务器”页面升级主机已安装的OpsAgent。前提条件已获取基础运维岗位权限或运维管理员权限，权限申请操作请参见申请权限。升级OpsAgent 进入AppStage运维中心。单击，选择“运维 > 主机管理服务（VMS）”。

帮助中心 > 应用平台 AppStage > 运维中心用户指南 > 使用主机管理服务管理主机 > 管理已纳管的主机

总条数： 10000

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

常见错误原因和解决方法 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

常见错误原因和解决方法 - AI开发平台ModelArts

在SLB中创建资源 - 应用平台 AppStage

配置微服务治理 - 应用平台 AppStage

在部署服务创建部署模板 - 应用平台 AppStage

创建过滤器在告警接入时过滤告警 - 应用平台 AppStage

查看已上架的EAP动作 - 应用平台 AppStage

创建运维事件通知组 - 应用平台 AppStage

升级弹性云服务器主机已安装的OpsAgent - 应用平台 AppStage

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线