搜索_华为云

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 修改训练超参配置以llama2-13b SFT微调为例，执行脚本 0_pl_sft_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910）
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务场景描述本案例介绍如何在Snt9B环境中利用Deployment机制部署在线推理服务。首先创建一个Pod以承载服务，随后登录至该Pod容器内部署在线服务，并最终通过新建一个终端作为客户端来访问并测试该在线服务的功能。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 ModelArts Lite Cluster会定期收集资源池中各节点的关键资源（GPU、NPU、CPU、Memory等）的使用情况并上报到AOM，用户可直接在AOM上查看默认配置好的基础指标，也支持用户自定义一些指标项上报到AOM查看。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
SFT全参微调训练任务 - AI开发平台ModelArts

SFT全参微调训练任务 Step1 上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905）
推理性能测试 - AI开发平台ModelArts

推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

准备环境本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。资源规格要求计算规格：不同模型训练推荐的NPU卡数请参见表1。硬盘空间：至少200GB。 Ascend资源规格： Ascend: 1*ascend-snt9b表示Ascend单卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 准备工作
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。什么是分离部署大模型推理是自回归的过程，有以下两阶段： Prefill阶段（全量推理）将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题问题1：在推理预测过程中遇到NPU out of memory。解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified max_model_len

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910）
根据配置文件历史ID删除配置文件历史 - 应用管理与运维平台 ServiceStage

根据配置文件历史ID删除配置文件历史功能介绍此API用于通过配置文件历史ID删除配置文件历史。 URI DELETE /v3/{project_id}/cas/configs/{config_id}/histories/{config_history_id} 表1 路径参数参数

 帮助中心 > 应用管理与运维平台 ServiceStage > API参考 > 应用管理API（v3版本） > 配置管理
手动续费 - 华为云UCS
手动续费 - 华为云UCS

选择UCS的续费时长，判断是否勾选“统一到期日”，将UCS套餐包到期时间统一到各个月的某一天（详细介绍请参见图4）。确认配置费用后单击“去支付”。图4 续费确认进入支付页面，选择支付方式，确认付款，支付订单后即可完成续费。统一包年/包月资源的到期如果您购买了对应不同集群类型的UCS套餐包，且到期日不同，

帮助中心 > 华为云UCS > 计费说明 > 续费
错误码 - CodeArts IDE
错误码 - CodeArts IDE

HTTP访问异常。 HTTP访问异常。请重试。如仍有问题，请联系支持工程师处理。 406 IDE.00900007 存在未支付订单。存在未支付订单。支付或取消未支付订单。 406 IDE.00900008 激活码数量超出配额。激活码数量超出配额。父主题：附录

 帮助中心 > CodeArts IDE > API参考 > 附录
手动续费 - 云应用引擎 CAE
手动续费 - 云应用引擎 CAE

日”，将套餐包到期时间统一到各个月的某一天（详细介绍请参见统一套餐包资源的到期日）。确认配置费用后单击“去支付”。图4 续费确认进入支付页面，选择支付方式，确认付款，支付订单后即可完成续费。统一套餐包资源的到期日如果您持有多个到期日不同的套餐包，可以将到期日统一设置到一个日期，便于日常管理和续费。

帮助中心 > 云应用引擎 CAE > 计费说明 > 续费
根据到期时间批量续费 - 费用中心

量续费资源个数。确认待续费资源的相关信息，并设置续费时长，单击“去支付”。选择优惠和支付方式，单击“确认付款”。单次批量续费操作生成一条组合交易订单，可以选择一个折扣。一次支付只能使用一张代金券。支付成功后即可完成本次续费操作。单击“查看订单详情”可查看已续费资源详情。

帮助中心 > 费用中心 > 最佳实践 > 大规模资源批量续费最佳实践
ClickHouse包周期计费操作 - 表格存储服务 CloudTable

转包周期操作也可以在集群的详情页面单击“转包周期”，跳转到包年/包月页面。跳转到包年/包月页面，选择购买时长，单击“去支付”。跳转到支付页面，选择支付方式，单击“确认付款”。订单支付成功后，返回集群列表，单击指定集群进入详情页面，查看“计费模式”。包年包月退订前提条件：集群计费模式为“包年/包月”。

帮助中心 > 表格存储服务 CloudTable > 用户指南 > ClickHouse用户指南 > ClickHouse集群管理 > 集群管理

总条数： 10000

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练启动脚本说明和参数配置 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

根据配置文件历史ID删除配置文件历史 - 应用管理与运维平台 ServiceStage

手动续费 - 华为云UCS

错误码 - CodeArts IDE

手动续费 - 云应用引擎 CAE

根据到期时间批量续费 - 费用中心

ClickHouse包周期计费操作 - 表格存储服务 CloudTable

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线