搜索_华为云

Controlnet训练 - AI开发平台ModelArts

Controlnet训练使用文本提示词可以生成一副精美的画作，然而无论再怎么精细地使用提示词来指导模型，也无法描述清楚人物四肢的角度、背景中物体的位置、光线照射的角度，使用Controlnet可以通过图像特征来为扩散模型的生成过程提供更加精细控制的方式。将Controlnet

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
Pyspark - AI开发平台ModelArts
Pyspark - AI开发平台ModelArts

保存完模型后，需要上传到OBS目录才能发布。发布时需要带上config.json配置和推理代码customize_service.py。config.json编写请参考模型配置文件编写说明，推理代码请参考推理代码。推理代码在模型代码推理文件customize_service.py中，需要添加一个子类，该子类

 帮助中心 > AI开发平台ModelArts > 推理部署（历史文档待下线） > 推理规范说明 > 自定义脚本代码示例
设置训练故障优雅退出 - AI开发平台ModelArts

设置训练故障优雅退出使用场景随着模型规模和数据集的急剧增长，需要利用大规模的训练集训练大规模的神经网络。在大规模集群分布式训练时，会遇到集群中某个芯片、某台服务器故障，导致分布式训练任务失败。优雅退出是指中断的训练任务支持自动恢复，并可以在上一次训练中断的基础上继续训练，而不用从头开始。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

来启动PyTorch DDP on Ascend加速卡训练。前提条件需要有Ascend加速卡资源池。创建训练作业本案例创建训练作业时，需要配置如下参数。表1 创建训练作业的配置说明参数名称说明 “创建方式” 选择“自定义算法”。 “启动方式” 选择“自定义”。 “镜像”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
请求超时返回Timeout - AI开发平台ModelArts

优先排查APIG（API网关）是否是通的，可以在本地使用curl命令排查，命令行：curl -kv {预测地址}。如返回Timeout则需排查本地防火墙，代理和网络配置。检查模型是否启动成功或者模型处理单个消息的时长。因APIG（API网关）的限制，模型单次预测的时间不能超过40S，超过后系统会默认返回Timeout错误。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

文档和代码中新增对mistral和mixtral模型的适配，并添加训练推荐配置。文档中新增对Llama3支持长序列文本（sequence_length > 32k）训练内容，例如新增参数context-parallel-size。文档中针对数据集预处理时，handler-name参数的说明，新增

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
Controlnet训练 - AI开发平台ModelArts

Controlnet训练使用文本提示词可以生成一副精美的画作，然而无论再怎么精细地使用提示词来指导模型，也无法描述清楚人物四肢的角度、背景中物体的位置、光线照射的角度，使用Controlnet可以通过图像特征来为扩散模型的生成过程提供更加精细控制的方式。将Controlnet

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.907）
准备数据（可选） - AI开发平台ModelArts

目前支持alpaca格式和sharegpt格式的微调数据集；使用自定义数据集时，请更新代码目录下data/dataset_info.json文件；请务必在dataset_info.json文件中添加数据集描述；具体示例如下。上传自定义数据到指定目录将下载的原始数据存放在{w

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
JupyterLab中文件保存失败，如何解决？ - AI开发平台ModelArts

在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。网络环境原因，是否有连接网络代理。解决方法关掉插件然后重新保存。减少文件大小。重新打开jupyter页面。请检查网络。父主题：代码运行常见错误

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 代码运行常见错误
PyTorch - AI开发平台ModelArts
PyTorch - AI开发平台ModelArts

torch.optim as optim from torchvision import datasets, transforms # 定义网络结构 class Net(nn.Module): def __init__(self): super(Net, self)

帮助中心 > AI开发平台ModelArts > 推理部署（历史文档待下线） > 推理规范说明 > 自定义脚本代码示例
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本案例仅支持在专属资源池上运行。文档更新内容 6.3.908版本相对于6.3.907版本新增如下内容：文档和代码中新增对mistral和mixtral模型的适配，并添加训练推荐配置。文档准备镜像步骤中，仅提供：直接使用基础镜像方案、ECS中构建新镜像方案，删除使用Notebook创建镜像方案。文档中新增对

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）
JupyterLab中文件保存失败，如何解决？ - AI开发平台ModelArts

在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。网络环境原因，是否有连接网络代理。解决方法关掉插件然后重新保存。减少文件大小。重新打开jupyter页面。请检查网络。父主题：环境配置故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
编写训练代码 - AI开发平台ModelArts

编写训练代码训练模型时引用依赖包，如何创建训练作业？训练作业常用文件路径是什么？如何安装C++的依赖库？训练作业中如何判断文件夹是否复制完毕？如何在训练中加载部分训练好的参数？训练作业的启动文件如何获取训练作业中的参数？训练作业中使用os.system('cd xxx')无法进入相应的文件夹？

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业
团队标注审核 - AI开发平台ModelArts

团队标注审核。设置是否通过为“true”，评审分数为“A”。 { "comments" : [ { "worker_id" : "8c15ad080d3eabad14037b4eb00d6a6f", "sample_id" : "0d43f9811d3808a3146c673257d4a1dbhh"

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
标注文本分类数据 - AI开发平台ModelArts

图2 数据标注-文本分类添加或删除数据自动学习项目中，数据来源为数据集中输入位置对应的OBS目录，当目录下的数据无法满足现有业务时，您可以在ModelArts自动学习页面中，添加或删除数据。添加文件在“未标注”页签下，可单击页面左上角的“添加数据”，您可以在弹出对话框中，选择本地文件上传。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法

总条数： 645

上一页
1
...
4
5
6
...
33
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Controlnet训练 - AI开发平台ModelArts

Pyspark - AI开发平台ModelArts

设置训练故障优雅退出 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

请求超时返回Timeout - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

Controlnet训练 - AI开发平台ModelArts

准备数据（可选） - AI开发平台ModelArts

JupyterLab中文件保存失败，如何解决？ - AI开发平台ModelArts

PyTorch - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

JupyterLab中文件保存失败，如何解决？ - AI开发平台ModelArts

编写训练代码 - AI开发平台ModelArts

团队标注审核 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

标注文本分类数据 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线