搜索_华为云

查看日志和性能 - AI开发平台ModelArts

训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件。查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
无法导入模块 - AI开发平台ModelArts

xxx”的报错，可以判断是环境中没有包含用户依赖的python包。处理方法训练作业导入模块时日志出现前两条报错信息，处理方法如下：首先保证被导入的module中有“__init__.py”存在，创建“module_dir”的“__init__.py”，如原因分析中的结构所示。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
创建ModelArts数据集 - AI开发平台ModelArts

以及数据标注要求，选择创建表格类型的数据集。填写数据集基本信息。图5 表格类型的参数名称：数据集的名称，可自定义您的数据集。描述：该数据集的详情信息。数据类型：根据实际需求，选择对应的数据类型。更多参数填写请参考表3。表3 数据集的详细参数参数名称说明数据源（“OBS”）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
查询作业引擎规格 - AI开发平台ModelArts

MindSpore-GPU engine_id Long 训练作业的引擎ID。 engine_name String 训练作业的引擎名称。 engine_version String 训练作业使用的引擎版本。请求示例如下以查看训练作业的资源引擎规格为例。 GET https://en

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 资源和引擎规格接口
更新训练作业参数 - AI开发平台ModelArts

config_name 是 String 训练作业参数的名称。请求消息请求参数如表2所示。表2 参数说明参数是否必选参数类型说明 config_desc 否 String 对训练作业的描述，默认为空，字符串的长度限制为[0，256]。 worker_server_num

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

建议将海量小文件，在本地压缩打包。例如打包成.zip格式。将此压缩后的文件上传至OBS。训练时，可直接从OBS下载此压缩文件至/cache目录。此操作仅需执行一次，无需训练过程反复与OBS交互导致训练效率低。如下示例，可使用mox.file.copy_parallel将zip文件下载

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
查询团队标注任务统计信息 - AI开发平台ModelArts

Pair的key为难例原因出现的次数，Pair的value为难例原因HardDetail。 key_sample_stats Map<String,Integer> 难例统计信息。 label_stats Array of LabelStats objects 标签统计信息列表。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
批量删除样本 - AI开发平台ModelArts

是否删除源文件，对非文本类型数据集有效(文本类型数据集因为是导入的整个文本文件，故删除一条样本不会对源文本有影响)。可选值如下： false：不删除源文件（默认值） true：删除源文件(注意：此操作可能影响已使用这些文件的数据集版本或其他数据集，导致页面展示异常或者训练/推理异常)

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询AI应用详情 - AI开发平台ModelArts

目录中的镜像会影响服务部署。 description String 模型描述信息。 project String 模型所属租户的项目ID。 workspace_id String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
创建训练作业 - AI开发平台ModelArts

自定义镜像训练作业的启动命令。 log_url 否 String 训练作业日志的保存位置，是一个OBS路径，如"obs://xx/yy/zz/"。 local_code_dir 否 String 算法的代码目录下载到训练容器内的本地路径。规则：必须为/home下的目录。 v1兼容模式下，当前字段不生效。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
LoRA微调训练 - AI开发平台ModelArts

训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。步骤2 修改训练超参配置以Llama2-70b和Llama2-13b的LoRA微调为例，执行脚本为0_pl_lora_70b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）
创建训练作业版本 - AI开发平台ModelArts

String 自定义镜像训练作业的自定义镜像的SWR-URL。如：“100.125.5.235:20202/jobmng/custom-cpu-base:1.0”。 user_command 否 String 自定义镜像训练作业的自定义镜像的容器的启动命令。形式为：“bash /home/work/run_train

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
通过patch操作对服务进行更新 - AI开发平台ModelArts

String 操作路径，符合标准的Json PATCH格式，代表以服务详情的Json返回体为基准，想要执行替换的值的目标路径（Json PATH）。当前支持且仅支持对模型相关所有参数的替换更新，因此前缀固定为“/config/”。例如，当期望更新第一个模型中的实例数量，则路径为“/co

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
LoRA微调训练 - AI开发平台ModelArts

训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。 Step2 修改训练超参配置以Llama2-70b和Llama2-13b的LoRA微调为例，执行脚本为0_pl_lora_70b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907）
查看授权列表 - AI开发平台ModelArts

排序方式。枚举值如下： asc：递增排序 desc：递减排序 limit 否 Integer 指定每一页返回的最大条目数，默认为1000。取值范围[1，1000]。 offset 否 Integer 分页列表的起始页，默认为0。请求参数无响应参数状态码： 200 表3 响应Body参数参数

 帮助中心 > AI开发平台ModelArts > API参考 > 授权管理
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型模型参数量训练类型序列长度cutoff_len 梯度累积值优化工具(Deepspeed)

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
查询训练作业列表 - AI开发平台ModelArts

String 作业状态的查询，默认为所有状态，例如查看创建失败的作业，可选的“status”为“3”|“5”|“6”|“13”，详细作业状态列表请参见作业状态参考。 per_page 否 Integer 指定每一页展示作业的总量，默认为10，“per_page”可选的范围为[1，1000]。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
创建训练实验 - AI开发平台ModelArts

String 实验名称，最大长度64，不支持特殊字符。 description 否 String 描述信息，最大长度256，不支持特殊字符。 workspace_id 否 String 工作空间ID，默认为0。响应参数状态码： 200 表4 响应Body参数参数参数类型描述 metadata

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询可视化作业列表 - AI开发平台ModelArts

String 作业状态的查询，默认为所有状态，例如查看创建失败的作业，可选的“status”为“3”|“5”|“6”|“13”，详细作业状态列表请查看作业状态参考。 per_page 否 Integer 指定每一页展示作业的总量，默认为“10”，“per_page”可选的范围为[1，1000]。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业

总条数： 2129

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看日志和性能 - AI开发平台ModelArts

无法导入模块 - AI开发平台ModelArts

创建ModelArts数据集 - AI开发平台ModelArts

查询作业引擎规格 - AI开发平台ModelArts

更新训练作业参数 - AI开发平台ModelArts

大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

查询团队标注任务统计信息 - AI开发平台ModelArts

批量删除样本 - AI开发平台ModelArts

查询AI应用详情 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

创建训练作业版本 - AI开发平台ModelArts

通过patch操作对服务进行更新 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

查看授权列表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

创建训练实验 - AI开发平台ModelArts

查询可视化作业列表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线