搜索_华为云

显存溢出错误 - AI开发平台ModelArts

和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表1进行设置。可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
修改Standard专属资源池支持的作业类型 - AI开发平台ModelArts

登录ModelArts管理控制台，在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”，进入“Standard资源池”页面。在资源池列表中，选择某个资源池右侧操作列的“ > 设置作业类型”。在“设置作业类型”弹窗中，选择需要设置的作业类型。图1 设置作业类型设置完成后，单击“确定”，启用作业类型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
显存溢出错误 - AI开发平台ModelArts

和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

弹性集群”，选择创建的专属资源池。图1 查看专属资源池在专属池详情页可查看驱动及固件版本。如下图显示Ascend驱动为7.1.0.7.220-23.0.5，表示固件版本为7.1.0.7.220，驱动版本为23.0.5。图2 查看专属池驱动创建OBS桶 ModelArts使用对象存储服务（Object

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

弹性集群”，选择创建的专属资源池。图1 查看专属资源池在专属池详情页可查看驱动及固件版本。如下图显示Ascend驱动为7.1.0.7.220-23.0.5，表示固件版本为7.1.0.7.220，驱动版本为23.0.5。图2 查看专属池驱动创建OBS桶 ModelArts使用对象存储服务（Object

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

弹性集群”，选择创建的专属资源池。图1 查看专属资源池在专属池详情页可查看驱动及固件版本。如下图显示Ascend驱动为7.1.0.7.220-23.0.5，表示固件版本为7.1.0.7.220，驱动版本为23.0.5。图2 查看专属池驱动创建OBS桶 ModelArts使用对象存储服务（Object

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 准备工作
附录：训练常见问题 - AI开发平台ModelArts

atch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-ZeRO-1，Deepspeed-ZeRO-1替换为Deepspeed-ZeRO

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
附录：训练常见问题 - AI开发平台ModelArts

atch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-ZeRO-1，Deepspeed-ZeRO-1替换为Deepspeed-ZeRO

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”如何解决？ - AI开发平台ModelArts

主体”后面的“选择主体”，弹出“选择用户，计算机，服务账户或组”窗口，单击“高级”，输入用户名，单击“立即查找”按钮，显示用户搜索结果列表。选择您的用户账户，然后单击“确定”（大约四个窗口）以关闭所有窗口。图1 添加所有者完成所有操作后，再次关闭并打开VS Code并尝试

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

弹性集群”，选择创建的专属资源池。图1 查看专属资源池在专属池详情页可查看驱动及固件版本。如下图显示Ascend驱动为7.1.0.7.220-23.0.5，表示固件版本为7.1.0.7.220，驱动版本为23.0.5。图2 查看专属池驱动创建OBS桶 ModelArts使用对象存储服务（Object

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 准备工作
moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts

资源规格要求推理部署推荐使用DevServer资源和Ascend Snt9B单机单卡。表1 环境要求名称版本 CANN cann_8.0.rc1 PyTorch pytorch_2.1.0 获取镜像表2 获取镜像分类名称获取路径基础镜像西南-贵阳一：swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
Open-Clip基于DevServer适配PyTorch NPU训练指导 - AI开发平台ModelArts

推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B单机单卡。表1 环境要求模型版本 CANN cann_8.0.rc1 PyTorch pytorch_2.1.0 获取镜像表2 获取镜像分类名称获取路径基础镜像西南-贵阳一：swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
迁移环境准备 - AI开发平台ModelArts

迁移环境准备迁移环境准备有以下两种方式：表1 方式说明序号名称说明方式一 ModelArts Notebook 该环境为在线调试环境，主要面向演示、体验和快速原型调试场景。优点：可快速、低成本地搭建环境，使用标准化容器镜像，官方Notebook示例可直接运行。缺点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
ECS获取基础镜像 - AI开发平台ModelArts

ip_forward Step4 获取训练镜像请确保在正确的Region下获取镜像。建议使用官方提供的镜像部署训练服务。镜像地址{image_url}请参见表1。 docker pull {image_url} 父主题：准备镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
启动/停止/删除实例 - AI开发平台ModelArts

源。登录ModelArts管理控制台，在左侧菜单栏中选择“开发空间>Notebook”，进入Notebook页面。在Notebook列表中，单击操作列的“删除”，在弹出的确认对话框中，确认信息无误，然后输入“DELETE”，单击“确定”，完成删除操作。 Notebook删除后

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
显存溢出错误 - AI开发平台ModelArts

和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

和PP流水线并行（pipeline-model-parallel-size），可以尝试增加TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

和PP流水线并行（pipeline-model-parallel-size），可以尝试增加TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表1进行设置。可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法

总条数： 1714

上一页
1
...
79
80
81
...
86
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

显存溢出错误 - AI开发平台ModelArts

修改Standard专属资源池支持的作业类型 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”如何解决？ - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts

Open-Clip基于DevServer适配PyTorch NPU训练指导 - AI开发平台ModelArts

迁移环境准备 - AI开发平台ModelArts

ECS获取基础镜像 - AI开发平台ModelArts

启动/停止/删除实例 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线