搜索_华为云

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

义镜像进行分布式训练时，需配置训练作业节点间SSH免密互信，否则训练会失败。配置节点间SSH免密互信涉及代码适配和训练作业参数配置，本文提供了一个操作示例。准备一个预装OpenSSH的自定义镜像，使用的训练框架是MPI或Horovod。准备一个sshd启动脚本文件“start_sshd

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
重置AppSecret - AI开发平台ModelArts

表2 请求Header参数参数是否必选参数类型描述 Content-Type 否 String 消息体的类型。设置为text/plain，返回临时预览链接。设置为application/octet-stream，返回临时下载链接。 X-Auth-Token 是 String 用户token。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
重置AppCode - AI开发平台ModelArts
重置AppCode - AI开发平台ModelArts

表2 请求Header参数参数是否必选参数类型描述 Content-Type 否 String 消息体的类型。设置为text/plain，返回临时预览链接。设置为application/octet-stream，返回临时下载链接。 X-Auth-Token 是 String 用户token。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
增加AppCode - AI开发平台ModelArts
增加AppCode - AI开发平台ModelArts

表2 请求Header参数参数是否必选参数类型描述 Content-Type 否 String 消息体的类型。设置为text/plain，返回临时预览链接。设置为application/octet-stream，返回临时下载链接。 X-Auth-Token 是 String 用户token。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
添加资源标签 - AI开发平台ModelArts

value。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v1/{project_id}/notebooks/{resource_id}/tags/create

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

hatGLM、Yi、Baichuan等推理部署的详细过程，利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。约束限制

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
Yaml配置文件参数配置说明 - AI开发平台ModelArts

Face权重时，对应的存放绝对或相对路径。请根据实际规划修改。 do_train true 指示脚本执行训练步骤，用来控制是否进行模型训练的。如果设置为true，则会进行模型训练；如果设置为false，则不会进行模型训练。 cutoff_len 4096 文本处理时的最大长度，此处为4096，用户可根据自己要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练精度测试 - AI开发平台ModelArts

5-7b-sft-4096-lora-313T-20241028_164746-npu_info-0.txt 执行下游评估为增加精度评测的稳定性及进一步确保训练精度，使用多个数据集【MMLU、CEVAL】评测，执行过程如下：获取到训练权重后使用ascendfactory-cli、eval接口用mmlu、ceval数据集对训练后的结果进行评测

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

格式的模板：支持Alpaca格式的数据，DATA_TYPE 环境变量需设置为 AlpacaStyleInstructionHandler 支持Sharegpt格式的数据，DATA_TYPE 环境变量需设置为 SharegptStyleInstructionHandler 已支持的系列模型模板：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

1-7ae870dae93a，训练作业为：9f322d5a-b1d2-4370-94df-5a87de27d36e node_ip 容器所属的节点IP值。 container_id 容器ID。 cid 集群ID。 container_name 容器名称。 project_id 用户所属的账号的project

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
导出ModelArts数据集中的数据 - AI开发平台ModelArts

径。“输出路径”不能与“保存路径”为同一路径，且“输出路径”不能是“保存路径”的子目录。图1 导出新数据集数据导出成功后，您可以前往您设置的保存路径，查看到存储的数据。当导出方式选择为新数据集时，在导出成功后，您可以前往“数据集”列表中，查看到新的数据集。在“数据集概览页”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

hatGLM、Yi、Baichuan等推理部署的详细过程，利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。约束限制

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

-aux查到的进程号，使用kill -9强制关闭进程。 sudo kill -9 <进程ID> 方法2：如果方法1执行后无法消除D+进程，请尝试重启服务器。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
Yaml配置文件参数配置说明 - AI开发平台ModelArts

Face权重时，对应的存放绝对或相对路径。请根据实际规划修改。 do_train true 指示脚本执行训练步骤，用来控制是否进行模型训练的。如果设置为true，则会进行模型训练；如果设置为false，则不会进行模型训练。 cutoff_len 4096 文本处理时的最大长度，此处为4096，用户可根据自己要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
查询数据集版本详情 - AI开发平台ModelArts

查询数据集版本详情。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datasets/{dataset_id}/versions/{version_id}

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
创建ModelArts数据校验任务 - AI开发平台ModelArts

图1 创建数据处理基本信息设置场景类别。场景类别当前支持“图像分类”和“物体检测”。设置数据处理类型为“数据清洗”，填写相应算子的设置参数，算子的详细参数参见数据校验算子说明（MetaValidation算子）。图2 设置场景类别和数据处理类型设置输入与输出。需根据实际数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
Yaml配置文件参数配置说明 - AI开发平台ModelArts

Face权重时，对应的存放绝对或相对路径。请根据实际规划修改。 do_train true 指示脚本执行训练步骤，用来控制是否进行模型训练的。如果设置为true，则会进行模型训练；如果设置为false，则不会进行模型训练。 cutoff_len 4096 文本处理时的最大长度，此处为4096，用户可根据自己要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
查询模型runtime - AI开发平台ModelArts

查询模型AI引擎以及runtime。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/models/ai-engine-runtimes 表1 路径参数

 帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
查询团队标注任务统计信息 - AI开发平台ModelArts

查询团队标注任务统计信息。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datasets/{dataset_id}/workforce

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
Yaml配置文件参数配置说明 - AI开发平台ModelArts

or false】，默认false do_train true 指示脚本执行训练步骤，用来控制是否进行模型训练的。如果设置为true，则会进行模型训练；如果设置为false，则不会进行模型训练。 cutoff_len 4096 文本处理时的最大长度，此处为4096，用户可根据自己要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明

总条数： 1121

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

重置AppSecret - AI开发平台ModelArts

重置AppCode - AI开发平台ModelArts

增加AppCode - AI开发平台ModelArts

添加资源标签 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

导出ModelArts数据集中的数据 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

查询数据集版本详情 - AI开发平台ModelArts

创建ModelArts数据校验任务 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

查询模型runtime - AI开发平台ModelArts

查询团队标注任务统计信息 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线