搜索_华为云

准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

用户也可以自行准备训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称，默认为text。在维基百科数据集中，它有四列，分别是i

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
管理标注作业 - AI开发平台ModelArts

进入数据标注页面。在数据标注列表页，“我创建的”页签下，选择需要复制的标注任务。单击作业操作列的“更多>复制”。在标注任务复制的弹窗中，填写作业描述，作业名称task-xxxx-copy-xxxx，其中xxxx为系统生成的随机码，用来区分新作业与被复制作业。也可以修改新生成的作业名称。单击“确定”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据
创建新版Notebook无法使用已购买的专属资源池，如何解决？ - AI开发平台ModelArts

进入“专属资源池”页面，单击目标资源池“操作”列的“更多 > 设置作业类型”。在“设置作业类型”页面，勾选“开发环境”，单击“确定”。此时“开发环境”的状态为“环境初始化中”，等到状态为“已启用”，即可使用新购买的专属资源池。父主题：其他故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 其他故障
镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge - AI开发平台ModelArts

response from daemon: Cannot pause container xxx”。原因分析执行镜像保存时，Notebook中存在状态为D的进程，会导致镜像保存失败。解决方案在Terminal里执行ps -aux命令检查进程。执行kill -9 <pid>命令

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
Yaml配置文件参数配置说明 - AI开发平台ModelArts

文件将保存在这个目录下 logging_steps 2 用于指定模型训练过程中，多少步输出一次日志。日志包括了训练进度、学习率、损失值等信息。建议设置 save_steps 5000 指定模型训练过程中，每多少步保存一次模型。保存的模型可以用于后续的训练或推理任务 plot_loss

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
Yaml配置文件参数配置说明 - AI开发平台ModelArts

logging_steps 2 用于指定模型训练过程中，多少步输出一次日志。日志包括了训练进度、学习率、损失值等信息。建议设置 max_steps 5000 非必填。表示训练step迭代次数。会自动计算得出。 save_steps 5000 指定模型训练过程中，每多少步保存一次模型。保存的模型可以用于后续的训练或推理任务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
远程连接处于retry状态如何解决？ - AI开发平台ModelArts

on Host”，选择出问题的实例进行自动清除，然后重新进行连接。图1 清除异常的实例方法二（远端）：在VS Code的Terminal中删除“/home/ma-user/.vscode-server/bin/”下正在使用的文件，然后重新进行连接。 ssh -tt -o Str

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
训练性能测试 - AI开发平台ModelArts

--baseline <baseline> --o <output_dir> <cfgs_yaml_file>：性能测试配置的yaml文件地址，指代码目录中performance_cfgs.yaml相对或绝对路径，此配置文件为训练最优配置参数。 --baseline <baseline>：<可选

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具
日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key” - AI开发平台ModelArts

dataset.iloc[:,:-1].values 建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
Yaml配置文件参数配置说明 - AI开发平台ModelArts

文件将保存在这个目录下 logging_steps 2 用于指定模型训练过程中，多少步输出一次日志。日志包括了训练进度、学习率、损失值等信息。建议设置 save_steps 5000 指定模型训练过程中，每多少步保存一次模型。保存的模型可以用于后续的训练或推理任务 plot_loss

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-3rdLLM-6.3.905-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 准备工作
日志提示“Out of bounds nanosecond timestamp” - AI开发平台ModelArts

23:47:16.854775807，需注意上下界限。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” - AI开发平台ModelArts

ata_pre_proc=false) 建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
创建数据集 - AI开发平台ModelArts

ContentInfo参数参数是否必选参数类型描述 content_id 是 String AI Gallery中数据集资产的ID。 version_id 是 String AI Gallery中数据集资产的版本ID。表4 AnnotationConfig参数参数是否必选参数类型描述

 帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集管理
Standard Workflow - AI开发平台ModelArts

用SDK对步骤以及步骤之间的关系进行定义针对工作流复用，用户可以在开发完成后将流水线固化下来，提供下次或其他人员使用，同时无需关注流水线中包含什么算法或如何实现图1 Workflow流程父主题： Standard功能介绍

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？ - AI开发平台ModelArts

find /home/ma-user/anaconda3 -name modelarts.pth 执行如下命令删除用户使用的python环境中的modelarts.pth文件。 # /xxx/modelarts.pth 指用户通过第一步查出来的文件路径 rm -rf /xxx/modelarts

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” - AI开发平台ModelArts

3, 1, 2).contigous() 建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
模型适配 - AI开发平台ModelArts
模型适配 - AI开发平台ModelArts

--inputShape="input_ids:1,77" 在配置文件中指定输入shape。配置文件中通过“[ascend_context]”配置项指定input_shape，格式与命令行一致，多个输入，需要使用“;”隔开。然后在命令行中通过--configFile指定对应的配置文件路径即可。 # text_encoder

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
训练作业进程被kill - AI开发平台ModelArts

以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况合理使用数据盘，数据盘大小请参考训练环境中不同规格资源大小。 CPU过载减少线程数。排查办法根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：线上环境调试代码（仅适用于非分布式代码）

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

总条数： 2433

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备数据 - AI开发平台ModelArts

管理标注作业 - AI开发平台ModelArts

创建新版Notebook无法使用已购买的专属资源池，如何解决？ - AI开发平台ModelArts

镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

远程连接处于retry状态如何解决？ - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key” - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

日志提示“Out of bounds nanosecond timestamp” - AI开发平台ModelArts

MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” - AI开发平台ModelArts

创建数据集 - AI开发平台ModelArts

Standard Workflow - AI开发平台ModelArts

用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？ - AI开发平台ModelArts

日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” - AI开发平台ModelArts

使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

模型适配 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线