搜索_华为云

训练作业进程异常退出 - AI开发平台ModelArts

根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：线上环境调试代码（仅适用于非分布式代码）在开发环境（notebook）申请相同规格的开发环境实例。在notebook调试用户代码，并找出问题的代码段。通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。，通过训练日志排查问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
SDXL基于DevServer适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

rch NPU的Finetune训练指导（6.3.905） Stable Diffusion（简称SD）是一种基于扩散过程的图像生成模型，应用于文生图场景，能够帮助用户生成图像。SDXL Finetune是指在已经训练好的SDXL模型基础上，使用新的数据集进行微调（fine-tuning）以优化模型性能的过程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
Notebook提示磁盘空间已满 - AI开发平台ModelArts

/home/ma-user/work du -h --max-depth 0 如果Notebook实例的存储配置采用的是云硬盘EVS，可在Notebook详情页申请扩容磁盘。建议与总结建议在使用Notebook时注意磁盘空间大小，随时删除不需要的文件。以免因磁盘空间问题导致训练失败。父主题：环境配置故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
模型适配 - AI开发平台ModelArts
模型适配 - AI开发平台ModelArts

d代码仓库，根据每个模型的configs文件获取已知的shape大小。下文主要介绍如何通过方式一获取模型shape。在pipeline应用准备章节，已经下载到sd的PyTorch模型（/home_host/work/runwayml/pytorch_models）。进入工作目录：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
更新算法 - AI开发平台ModelArts
更新算法 - AI开发平台ModelArts

code_dir 否 String 算法的代码目录。如：“/usr/app/”。应与boot_file一同出现。 boot_file 否 String 算法的代码启动文件，需要在代码目录下。如：“/usr/app/boot.py”。应与code_dir一同出现。 command 否

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
如何保证训练和调试时文件路径保持一致 - AI开发平台ModelArts

rk”路径下。 ln -s建立软连接如果代码中涉及文件绝对路径，由于Notebook调试与训练作业环境不同，可能会导致文件绝对路径不一致，需要修改代码内容。推荐使用软链接的方式解决该问题，用户只需提前建立好软链接，代码中的地址可保持不变。新建软链接： # ln -s 源目录/文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

Server适配PyTorch NPU的推理指导（6.3.912） Stable Diffusion（简称SD）是一种基于扩散过程的图像生成模型，应用于文生图场景，能够帮助用户生成图像。本文基于diffusers和comfyui两个框架进行适配。方案概览本方案介绍了在ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
专属资源池VPC打通 - AI开发平台ModelArts

需要打通的对端网络不能和当前网段重叠。图2 打通VPC参数选择如果没有VPC可选，可以单击右侧的“创建虚拟私有云”，跳转到网络控制台，申请创建虚拟私有云。如果没有子网可选，可以单击右侧的“创建子网”，跳转到网络控制台，创建可用的子网。支持1个VPC下多个子网的打通，如果V

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.2

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD WEBUI套件适配PyTorch NPU的推理指导（6.3.908）
开发第一条Workflow - AI开发平台ModelArts

https://cn-north-4-training-test.obs.cn-north-4.myhuaweicloud.com/workflow-apps/v1.0.1/modelarts-1.4.18-py2.py3-none-any.whl !wget -N https://cn-north-4-training-test

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
pipeline代码适配 - AI开发平台ModelArts

Lite提供了Python、C++以及JAVA三种应用开发接口。此处以Python接口为例，介绍如何使用MindSpore Lite Python API构建并推理Stable Diffusion模型，更多信息请参考MindSpore Lite应用开发。以官方onnx pipeline代码为例，其提供的onnx

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
训练启动脚本说明和参数配置 - AI开发平台ModelArts

AlpacaStyleInstructionHandler：使用LLama-Factory模板Alpaca数据集 SharegptStyleInstructionHandler：使用LLama-Factory模板Sharegpt数据集 MBS 1 表示流水线并行中一个micro batch所

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
设置断点续训练 - AI开发平台ModelArts

keep_checkpoint_max=35) # append_info=[{"epoch_num": cur_epoch_num}],mindspore1.3及以后版本会支持append_info参数，保存当前时刻的epoch值。 # 保存网络参数，详细请参见mindspore

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
模型训练存储加速 - AI开发平台ModelArts

keep_checkpoint_max=35) # append_info=[{"epoch_num": cur_epoch_num}],mindspore1.3及以后版本会支持append_info参数，保存当前时刻的epoch值。 # 保存网络参数，详细请参见mindspore

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
调用MaaS部署的模型服务 - AI开发平台ModelArts

# Send request. headers = { 'Content-Type': 'application/json', 'Authorization': 'Bearer yourApiKey' # 把

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
ma-cli dli-job提交DLI Spark作业支持的命令 - AI开发平台ModelArts

Python file or app jar. -cn, --class-name TEXT Your application's main class (for Java / Scala apps). --name TEXT

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
通过AK/SK认证的方式访问在线服务 - AI开发平台ModelArts

and body. method = 'POST' headers = { 'Content-Type': 'application/json' } body = { 'image': base64_data }

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
准备Notebook（可选） - AI开发平台ModelArts

home/ma-user/work目录下，该目录下的内容在实例停止后会被保留。可以自定义磁盘空间，如果需要存储数据集、模型等大型文件，建议申请规格300GB+。存储支持在线按需扩容。图2 自定义存储配置使用Notebook将OBS数据导入云硬盘EVS 打开已创建的Notebo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
准备Notebook（可选） - AI开发平台ModelArts

/home/ma-user/work目录下，该目录下的内容在实例停止后会被保留。可以自定义磁盘空间，若需要存储数据集、模型等大型文件，建议申请规格300GB+。存储支持在线按需扩容。图2 自定义存储配置使用Notebook将OBS数据导入云硬盘EVS 打开已创建的Notebo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
准备Notebook（可选） - AI开发平台ModelArts

home/ma-user/work目录下，该目录下的内容在实例停止后会被保留。可以自定义磁盘空间，如果需要存储数据集、模型等大型文件，建议申请规格300GB+。存储支持在线按需扩容。图2 自定义存储配置使用Notebook将OBS数据导入云硬盘EVS 打开已创建的Notebo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作

总条数： 592

上一页
1
...
16
17
18
...
30
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业进程异常退出 - AI开发平台ModelArts

SDXL基于DevServer适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

模型适配 - AI开发平台ModelArts

更新算法 - AI开发平台ModelArts

如何保证训练和调试时文件路径保持一致 - AI开发平台ModelArts

SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

专属资源池VPC打通 - AI开发平台ModelArts

在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

开发第一条Workflow - AI开发平台ModelArts

pipeline代码适配 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

调用MaaS部署的模型服务 - AI开发平台ModelArts

ma-cli dli-job提交DLI Spark作业支持的命令 - AI开发平台ModelArts

通过AK/SK认证的方式访问在线服务 - AI开发平台ModelArts

准备Notebook（可选） - AI开发平台ModelArts

准备Notebook（可选） - AI开发平台ModelArts

准备Notebook（可选） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线