搜索_华为云

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
管理Standard专属资源池的游离节点 - AI开发平台ModelArts

查找搜索节点在节点管理页面的搜索栏中，支持通过节点名称、IP地址、资源标签等关键字搜索节点。设置节点列表显示信息在节点页面中，单击右上角的设置图标，支持对节点列表中显示的信息进行自定义。删除/退订/释放节点具体操作请参见释放游离节点章节。父主题：管理Standard专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

Tensorflow多节点作业下载数据到/cache显示No space left 问题现象创建训练作业，Tensorflow多节点作业下载数据到/cache显示：“No space left”。原因分析 TensorFlow多节点任务会启动parameter server（

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
自动学习/Workflow计费项 - AI开发平台ModelArts

32GB、计算节点个数为1个（单价：3.40 元/小时）；服务部署时选择资源池规格为CPU: 8 核 32GB、计算节点个数为1个（单价：3.50 元/小时）。按照计算资源费用、存储费用结算，那么运行这个自动学习作业的费用计算过程如下：计算资源费用 = 规格单价 * 计算节点个数 *

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
管理Lite Cluster资源池的游离节点 - AI开发平台ModelArts

查找搜索节点在节点管理页面的搜索栏中，支持通过节点名称、IP地址、资源标签等关键字搜索节点。设置节点列表显示信息在节点页面中，单击右上角的设置图标，支持对节点列表中显示的信息进行自定义。删除/退订/释放节点具体操作请参见释放游离节点章节。父主题： Lite Cluster资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
开发环境计费项 - AI开发平台ModelArts

实例时，会使用计算资源和存储资源，会产生计算资源和存储资源的累计值计费。具体内容如表1所示。 Notebook实例停止运行时，EVS还会持续计费，需及时删除才能停止EVS计费。计算资源费用：如果运行Notebook实例时，使用专属资源池进行模型训练和推理，计算资源不计费。如

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
查看日志和性能 - AI开发平台ModelArts

s收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图） ppo训练结束不会打印性能。建议根据保存路径下的trainer_log

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
查看日志和性能 - AI开发平台ModelArts

s收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图）注：ppo训练结束不会打印性能。建议根据保存路径下的trainer_log

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

s收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图） ppo训练结束不会打印性能。建议根据保存路径下的trainer_log

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
查看日志和性能 - AI开发平台ModelArts

s收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图） ppo训练结束不会打印性能。建议根据保存路径下的trainer_log

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

池列表。进入资源池详情页，在节点管理页面，选择需要进行驱动升级的节点，单击操作列的“更多 > 驱动升级”。在“驱动升级”弹窗中，会显示当前专属资源池节点的名称ID、规格和驱动版本号，选择节点待升级的“升级版本”。单击“确定”，开始升级单个节点的驱动。父主题： Lite Cluster资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
专属资源池计费项 - AI开发平台ModelArts

示例：使用包年包月的专属资源池。计费项：计算资源费用假设用户于2023年4月1日10:00:00创建了一个包年/包月的专属资源池，资源池规格为CPU: 8 核 32GB，计算节点个数为1个，购买时长为2个月，单价为1,750.00元。按照计算资源费用结算，那么此专属资源池运行期间产生的费用计算如下：计算资源费用

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
在ModelArts中使用边缘节点部署边缘服务时能否使用http接口协议？ - AI开发平台ModelArts

在ModelArts中使用边缘节点部署边缘服务时能否使用http接口协议？系统默认使用https。如果您想使用http，可以采取以下两种方式：方式一：在部署边缘服务时添加如下环境变量： MODELARTS_SSL_ENABLED = false 图1 添加环境变量方式二：在

 帮助中心 > AI开发平台ModelArts > 常见问题 > Edge
自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信当用户使用基于MPI和Horovod框架的自定义镜像进行分布式训练时，需配置训练作业节点间SSH免密互信，否则训练会失败。配置节点间SSH免密互信涉及代码适配和训练作业参数配置，本文提供了一个操作示例。准备一个预装OpenSSH的自

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
计费样例 - AI开发平台ModelArts
计费样例 - AI开发平台ModelArts

准。计费模式计算规则付费周期费用计算按需计费计算资源费用：规格单价 × 时长每小时的费用计算资源费用：3.50（规格单价：元/时）× 720（时长：720小时）= 2520.00 元包年/包月计算资源费用：规格单价 × 时长每月的费用计算资源费用：1750

帮助中心 > AI开发平台ModelArts > 计费说明
PD分离部署使用说明 - AI开发平台ModelArts

Prefill阶段（全量推理）将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型。 Decode阶段（增量推理）将请求的前1个token传入大模型，从显存读取前文产生的KVCache再进行计算，属于访存密集型。 PD分离部署场景下，大模型推

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 分离部署
模型训练计费项 - AI开发平台ModelArts

在ModelArts进行模型训练时，会产生计算资源和存储资源的累计值计费。计算资源为训练作业运行的费用。存储资源包括数据存储到OBS或SFS的费用。具体内容如表1所示。表1 计费项计费项计费项说明适用的计费模式计费公式计算资源公共资源池使用计算资源的用量。具体费用可参见ModelArts价格详情。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server

总条数： 1596

上一页
1
2
3
4
5
...
80
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

管理Standard专属资源池的游离节点 - AI开发平台ModelArts

Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

自动学习/Workflow计费项 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

管理Lite Cluster资源池的游离节点 - AI开发平台ModelArts

开发环境计费项 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

专属资源池计费项 - AI开发平台ModelArts

在ModelArts中使用边缘节点部署边缘服务时能否使用http接口协议？ - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

计费样例 - AI开发平台ModelArts

PD分离部署使用说明 - AI开发平台ModelArts

模型训练计费项 - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线