搜索_华为云

查看日志和性能 - AI开发平台ModelArts

参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906）
查看日志和性能 - AI开发平台ModelArts

参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）
查询开发环境实例列表 - AI开发平台ModelArts

限制本次返回的结果数据条数，取值范围(0,∞)，默认值为“0”，返回全部。 workspace_id 否 String 工作空间id。未创建工作空间时取值默认值为0，存在创建并使用的工作空间，以实际取值为准。 show_self 否 string 只显示自己，默认值是True。 ai_project 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
在Notebook中通过镜像保存功能制作自定义镜像 - AI开发平台ModelArts

建议保存的镜像大小不要超过35G，镜像层数不要超过125层，因为节点容器存储Rootfs差异（详细请参考容器引擎空间分配），可能会导致镜像保存失败。如使用的是专属资源池，可尝试在“专属资源池>弹性集群”页面按需调整容器引擎空间大小，具体步骤请参考扩缩容专属资源池的“修改容器引擎空间大小”。如果问题仍未解决，请联系技术支持。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
批量删除标签 - AI开发平台ModelArts

@modelarts:from_type 否 String 内置属性：三元组关系标签的起始实体类型，创建关系标签时必须指定，该参数仅文本三元组数据集使用。 @modelarts:rename_to 否 String 内置属性：重命名后的标签名。 @modelarts:shortcut 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
手动部署推理服务 - AI开发平台ModelArts

时会与基础镜像冲突，导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。不要将同一个NPU挂载给多个容器使用，会导致后续的容器无法正常使用NPU功能。 --name ${container_name}：容器名称，进入容器时会用到，此处可以自己定义一个容器名称。 {image_id}

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 部署推理服务
执行预训练任务 - AI开发平台ModelArts

sh scripts/llama2/0_pl_pretrain_13b.sh 注意：如果单机运行需要指定使用NPU卡的数量，可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令： MASTER_ADDR=localhost NNODES=1 NODE_RANK=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）
执行预训练任务 - AI开发平台ModelArts

sh scripts/llama2/0_pl_pretrain_13b.sh 注意：如果单机运行需要指定使用NPU卡的数量，可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令： MASTER_ADDR=localhost NNODES=1 NODE_RANK=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）
创建数据集标签 - AI开发平台ModelArts

@modelarts:from_type 否 String 内置属性：三元组关系标签的起始实体类型，创建关系标签时必须指定，该参数仅文本三元组数据集使用。 @modelarts:rename_to 否 String 内置属性：重命名后的标签名。 @modelarts:shortcut 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
训练作业进程异常退出 - AI开发平台ModelArts

可能是内存溢出造成的。请减少数据量、减少batch_size，优化代码，合理聚合、复制数据。请注意，数据文件大小不等于内存占用大小，需仔细评估内存使用情况。退出码139 请排查安装包的版本，可能存在包冲突的问题。排查办法根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
执行预训练任务 - AI开发平台ModelArts

sh scripts/llama2/0_pl_pretrain_13b.sh 注意：如果单机运行需要指定使用NPU卡的数量，可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令： MASTER_ADDR=localhost NNODES=1 NODE_RANK=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908）
执行预训练任务 - AI开发平台ModelArts

sh scripts/llama2/0_pl_pretrain_13b.sh 注意：如果单机运行需要指定使用NPU卡的数量，可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令： MASTER_ADDR=localhost NNODES=1 NODE_RANK=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）
查看日志和性能 - AI开发平台ModelArts

参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
查询标注团队详情 - AI开发平台ModelArts

workforce_name String 标注团队名称。 workspace_id String 工作空间ID。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。请求示例查询标注团队详情 GET https://{endpoint}/v2/{project_id}/w

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
性能调优总体原则和思路 - AI开发平台ModelArts

性能调优总体原则和思路 PyTorch在昇腾AI处理器的加速实现方式是以算子为粒度进行调用（OP-based），即通过Python与C++调用CANN层接口Ascend Computing Language（AscendCL）调用一个或几个亲和算子组合的形式，代替原有GPU的实现

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
查询训练作业列表 - AI开发平台ModelArts

参数类型。 continuous：指定时表示这个超参是连续类型的。连续类型的超参在算法使用于训练作业时，控制台显示为输入框。 discrete：指定时表示这个超参是离散类型的。离散类型的超参在算法使用于训练作业时，控制台显示为下拉选择框架。 lower_bound String 超参下界。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
训练的数据集预处理说明 - AI开发平台ModelArts

--workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。 --prompt-type：需要指定使用模型的template。已支持的系列模型可查看：文档更新内容。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
训练的数据集预处理说明 - AI开发平台ModelArts

--workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。 --prompt-type：需要指定使用模型的template。已支持的系列模型可查看：文档更新内容。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
查看日志和性能 - AI开发平台ModelArts

参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909）
查看日志和性能 - AI开发平台ModelArts

参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910）

总条数： 2231

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查询开发环境实例列表 - AI开发平台ModelArts

在Notebook中通过镜像保存功能制作自定义镜像 - AI开发平台ModelArts

批量删除标签 - AI开发平台ModelArts

手动部署推理服务 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

创建数据集标签 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查询标注团队详情 - AI开发平台ModelArts

性能调优总体原则和思路 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线