搜索_华为云

查看日志和性能 - AI开发平台ModelArts

参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909）
创建节点池 - AI开发平台ModelArts

资源规格名称，比如：modelarts.vm.gpu.t4u8。 count 是 Integer 规格保障使用量。 maxCount 是 Integer 资源规格的弹性使用量，物理池该值和count相同。 azs 否 Array of PoolNodeAz objects 资源池中节点的AZ信息。

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
执行预训练任务 - AI开发平台ModelArts

sh scripts/llama2/0_pl_pretrain_13b.sh 注意：如果单机运行需要指定使用NPU卡的数量，可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令： MASTER_ADDR=localhost NNODES=1 NODE_RANK=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910）
执行预训练任务 - AI开发平台ModelArts

sh scripts/llama2/0_pl_pretrain_13b.sh 注意：如果单机运行需要指定使用NPU卡的数量，可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令： MASTER_ADDR=localhost NNODES=1 NODE_RANK=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911）
查看日志和性能 - AI开发平台ModelArts

参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905）
查看日志和性能 - AI开发平台ModelArts

参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911）
创建数据集标签 - AI开发平台ModelArts

@modelarts:from_type 否 String 内置属性：三元组关系标签的起始实体类型，创建关系标签时必须指定，该参数仅文本三元组数据集使用。 @modelarts:rename_to 否 String 内置属性：重命名后的标签名。 @modelarts:shortcut 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询API - AI开发平台ModelArts
查询API - AI开发平台ModelArts

e_id}/apis/{api_id} 表1 路径参数参数是否必选参数类型描述 service_id 是 String 服务编号，可通过查询服务列表获取。 api_id 是 String APP编号。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
执行预训练任务 - AI开发平台ModelArts

sh scripts/llama2/0_pl_pretrain_13b.sh 注意：如果单机运行需要指定使用NPU卡的数量，可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令： MASTER_ADDR=localhost NNODES=1 NODE_RANK=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
执行预训练任务 - AI开发平台ModelArts

sh scripts/llama2/0_pl_pretrain_13b.sh 注意：如果单机运行需要指定使用NPU卡的数量，可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令： MASTER_ADDR=localhost NNODES=1 NODE_RANK=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909）
更新数据集 - AI开发平台ModelArts

@modelarts:from_type 否 String 内置属性：三元组关系标签的起始实体类型，创建关系标签时必须指定，该参数仅文本三元组数据集使用。 @modelarts:rename_to 否 String 内置属性：重命名后的标签名。 @modelarts:shortcut 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
批量删除标签 - AI开发平台ModelArts

@modelarts:from_type 否 String 内置属性：三元组关系标签的起始实体类型，创建关系标签时必须指定，该参数仅文本三元组数据集使用。 @modelarts:rename_to 否 String 内置属性：重命名后的标签名。 @modelarts:shortcut 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查看日志和性能 - AI开发平台ModelArts

参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909）
查看日志和性能 - AI开发平台ModelArts

参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912）
查看日志和性能 - AI开发平台ModelArts

参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
注册API并授权给APP - AI开发平台ModelArts

project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 service_id 是 String 服务编号，可通过查询服务列表获取。请求参数表2 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户token。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
断点续训和故障快恢说明 - AI开发平台ModelArts

存路径${output_dir}/saved_checkpoints（加载故障快恢路径）必须为空，否则此参数无效断点续训失效。如果就是使用最新的训练权重进行断点续训（暂停+启动场景），那么可以同时指定train_auto_resume =1和 ${user_converted

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考

总条数： 2457

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看日志和性能 - AI开发平台ModelArts

创建节点池 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

创建数据集标签 - AI开发平台ModelArts

查询API - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

更新数据集 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

批量删除标签 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

注册API并授权给APP - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线