搜索_华为云

训练作业失败，返回错误码139 - AI开发平台ModelArts

训练作业失败，返回错误码139 问题现象训练作业运行失败，返回错误码139，如下图所示： [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码软件配套版本本方案支持的软件配套版本和依赖包获取地址如表1所示。表1 软件配套版本和获取地址软件名称说明下载地址 AscendCloud-6.3.909-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的推理部署代码和推理评测代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。软件配套版本本方案支持的软件配套版本和依赖包获取地址如表1所示。表1 软件配套版本和获取地址软件名称说明下载地址 AscendCloud-6.3.908-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。软件配套版本本方案支持的软件配套版本和依赖包获取地址如表1所示。表1 软件配套版本和获取地址软件名称说明下载地址 AscendCloud-6.3.907-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 准备工作
训练场景和方案介绍 - AI开发平台ModelArts

训练场景和方案介绍 Stable Diffusion（简称SD）是一种基于扩散过程的图像生成模型，应用于文生图场景，能够帮助用户生成图像。方案概览本方案介绍了在ModelArts Lite DevServer上使用昇腾计算资源Ascend Snt9B开展SDXL和SD1.5模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
训练场景和方案介绍 - AI开发平台ModelArts

训练场景和方案介绍 Stable Diffusion（简称SD）是一种基于扩散过程的图像生成模型，应用于文生图场景，能够帮助用户生成图像。方案概览本方案介绍了在ModelArts Lite DevServer上使用昇腾计算资源Ascend Snt9B开展SDXL和SD1.5模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.907）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。软件配套版本本方案支持的软件配套版本和依赖包获取地址如表1所示。表1 软件配套版本和获取地址软件名称说明下载地址 AscendCloud-6.3.909-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 准备工作
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” 问题现象使用pytorch进行分布式训练时，日志中出现报错“RuntimeError: connect() timed out”。原因分析出现该问题的可能原因如下：如果在此之前是有进行数据复制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” 问题现象训练作业失败，日志报出如下错误： RuntimeError: cuda runtime error (10) : invalid device ordinal

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

产品优势 ModelArts服务具有以下产品优势。稳定安全的算力底座，极快至简的模型训练支持万节点计算集群管理大规模分布式训练能力，加速大模型研发提供高性价比国产算力多年软硬件经验沉淀，AI场景极致优化加速套件，训练、推理、数据访问多维度加速一站式端到端生产工具链，一致性开发体验

 帮助中心 > AI开发平台ModelArts > 产品介绍
使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

使用预置镜像制作自定义镜像用于训练模型使用预置框架构建自定义镜像原理介绍如果先前基于预置框架且通过指定代码目录和启动文件的方式来创建的训练作业；但是随着业务逻辑的逐渐复杂，您期望可以基于预置框架修改或增加一些软件依赖的时候，可以使用预置框架构建自定义镜像，即在创建训练作业页面

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
上传镜像 - AI开发平台ModelArts
上传镜像 - AI开发平台ModelArts

上传镜像操作场景客户端上传镜像，是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。如果容器引擎客户端机器为云上的ECS或CCE节点，根据机器所在区域有两种网络链路可以选择：如果机器与容器镜像仓库在同一区域，则上传镜像走内网链路。如

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.909-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 准备工作
Lite Cluster资源管理介绍 - AI开发平台ModelArts

Lite Cluster资源管理介绍在ModelArts控制台，您可以对已创建的资源进行管理。通过单击资源池名称，可以进入到资源池详情页，您可以在详情页进行下述操作。管理Lite Cluster节点：节点是容器集群组成的基本元素，您可以对资源池内单节点进行替换、删除、重置等操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
升级Standard专属资源池驱动 - AI开发平台ModelArts

升级Standard专属资源池驱动场景介绍当专属资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。驱动升级有两种升级方式：安全升级、强制升级。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-3rdLLM-905-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
Lite Cluster使用流程 - AI开发平台ModelArts

Lite Cluster使用流程 ModelArts Lite Cluster面向k8s资源型用户，提供托管式k8s集群，并预装主流AI开发插件以及自研的加速插件，以云原生方式直接向用户提供AI Native的资源、任务等能力，用户可以直接操作资源池中的节点和k8s集群。本文旨在帮助您了解Lite

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

ModelArts Standard推理服务支持VPC直连的高速访问通道配置背景说明访问在线服务的实际业务中，用户可能会存在如下需求：高吞吐量、低时延 TCP或者RPC请求因此，ModelArts提供了VPC直连的高速访问通道功能以满足用户的需求。使用VPC直连的高速访

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
Notebook的自定义镜像制作方法 - AI开发平台ModelArts

Notebook的自定义镜像制作方法用户在使用ModelArts开发环境时，经常需要对开发环境进行一些改造，如安装、升级或卸载一些包。但是某些包的安装升级需要root权限，运行中的Notebook实例中无root权限，所以在Notebook实例中安装需要root权限的软件，目前

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” 问题现象训练作业在使用MoXing复制数据时，日志中出现报错“BrokenPipeError: [Errno xx] Broken pipe”。原因分析出现该问题的可能原因如下：在大规模分布

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障

总条数： 1080

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业失败，返回错误码139 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

产品优势 - AI开发平台ModelArts

使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

上传镜像 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Lite Cluster资源管理介绍 - AI开发平台ModelArts

升级Standard专属资源池驱动 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Lite Cluster使用流程 - AI开发平台ModelArts

ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

Notebook的自定义镜像制作方法 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线