搜索_华为云

查看日志和性能 - AI开发平台ModelArts

可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在最后一个节点上。图2 Loss收敛情况（示意图）父主题：主流开源大模型基于Lite Server适配ModelLink

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

昇腾系列AI处理器的Physical ID。 device_type 昇腾系列AI处理器类型。 gpu_uuid 节点上GPU的UUID。 gpu_index 节点上GPU的索引。 gpu_type 节点上GPU的型号。 device_name infiniband或RoCE网络网卡的设备名称。 port

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
查看日志和性能 - AI开发平台ModelArts

可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在最后一个节点上。图2 Loss收敛情况（示意图）父主题：主流开源大模型基于Lite Server适配ModelLink

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在最后一个节点上。图2 Loss收敛情况（示意图）父主题：主流开源大模型基于Lite Server适配ModelLink

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）
查看日志和性能 - AI开发平台ModelArts

可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在最后一个节点上。图2 Loss收敛情况（示意图）父主题：主流开源大模型基于Lite Server适配ModelLink

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908）
LoRA微调训练 - AI开发平台ModelArts

sh 选择用户自己的专属资源池，以及规格与节点数。图2 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/data 存储位置：输入用户的“子目录挂载”路径。如果默认没有填写，则忽略。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。例如OBS支持静态挂载和动态挂载，而SFS Turbo仅支持静态挂载，详细的挂载操作流程可阅读通过静态存储卷使用已有极速文件存储和通过动态存储卷使用对象存储。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。例如OBS支持静态挂载和动态挂载，而SFS Turbo仅支持静态挂载，详细的挂载操作流程可阅读通过静态存储卷使用已有极速文件存储和通过动态存储卷使用对象存储。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。例如OBS支持静态挂载和动态挂载，而SFS Turbo仅支持静态挂载，详细的挂载操作流程可阅读通过静态存储卷使用已有极速文件存储和通过动态存储卷使用对象存储。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
模型训练计费项 - AI开发平台ModelArts

规格单价 * 计算节点个数 * 使用时长专属资源池专属资源池的费用已在购买时支付，模型训练时不再收费。专属资源池的费用请参考专属资源池计费项。 - - 存储资源对象存储OBS 用于存储模型训练的输入和输出数据。具体费用可参见对象存储价格详情。注意：存储到OBS中的数据

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
创建OBS桶用于ModelArts存储数据 - AI开发平台ModelArts

创建OBS桶用于ModelArts存储数据由于ModelArts本身没有数据存储的功能，ModelArts使用对象存储服务（Object Storage Service，简称OBS）进行数据存储以及模型的备份和快照，实现安全、高可靠和低成本的存储需求。 AI开发过程中的输入数据、

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。例如OBS支持静态挂载和动态挂载，而SFS Turbo仅支持静态挂载，详细的挂载操作流程可阅读通过静态存储卷使用已有极速文件存储和通过动态存储卷使用对象存储。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
Lite Cluster&Server介绍 - AI开发平台ModelArts

通过选择资源池的驱动版本，解决资源池所有节点驱动版本一致的时候，并且没有指定驱动版本，会导致后续加入资源池的节点并不能自动升级到该版本情况，优化了当前需手工处理，增加运维成本问题。支持节点新进入集群，默认启用准入检测，以能够拉起真实的GPU/NPU检测任务支持集群扩容时，扩容的节点默认开启准入检测，

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
计费样例 - AI开发平台ModelArts
计费样例 - AI开发平台ModelArts

8 核 32GB (modelarts.vm.cpu.8ud) 计算节点个数：1个用了一段时间后，用户发现当前规格无法满足业务需要，于2023/03/20 9:00:00扩容规格增加1个节点（扩容后，共有2个节点）。因为该专属资源池打算长期使用下去，于2023/03/20 10:

帮助中心 > AI开发平台ModelArts > 计费说明
推理部署计费项 - AI开发平台ModelArts

规格单价 * 计算节点个数 * 使用时长专属资源池专属资源池的费用已在购买时支付，部署服务不再收费。专属资源池的费用请参考专属资源池计费项。 - - 存储资源对象存储OBS 用于存储批量部署服务的输入和输出数据。具体费用可参见对象存储价格详情。注意：存储到OBS中的数据

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
查看日志和性能 - AI开发平台ModelArts

查看日志和性能单击作业详情页面，则可查看训练过程中的详细信息。图1 查看训练作业在作业详情页的日志页签，查看最后一个节点的日志，其包含“elapsed time per iteration (ms)”数据，可换算为tokens/s/p的性能数据。吞吐量（tokens/s/p）：global

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能单击作业详情页面，则可查看训练过程中的详细信息。图1 查看训练作业在作业详情页的日志页签，查看最后一个节点的日志，其包含“elapsed time per iteration (ms)”数据，可换算为tokens/s/p的性能数据。吞吐量（tokens/s/p）：global

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能单击作业详情页面，则可查看训练过程中的详细信息。图1 查看训练作业在作业详情页的日志页签，查看最后一个节点的日志，其包含“elapsed time per iteration (ms)”数据，可换算为tokens/s/p的性能数据。吞吐量（tokens/s/p）：global

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
开启训练故障自动重启功能 - AI开发平台ModelArts

开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图1 开启故障重启断点续训练是通过checkpoint机制实现。c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能单击作业详情页面，则可查看训练过程中的详细信息。图1 查看训练作业在作业详情页的日志页签，查看最后一个节点的日志，其包含“elapsed time per iteration (ms)”数据，可换算为tokens/s/p的性能数据。吞吐量（tokens/s/p）：global

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）

总条数： 1078

上一页
1
...
6
7
8
...
54
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看日志和性能 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

模型训练计费项 - AI开发平台ModelArts

创建OBS桶用于ModelArts存储数据 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

Lite Cluster&Server介绍 - AI开发平台ModelArts

计费样例 - AI开发平台ModelArts

推理部署计费项 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

开启训练故障自动重启功能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线