搜索_华为云

日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” - AI开发平台ModelArts

日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” 问题现象在pytorch训练时，出现如下报错： RuntimeError: cuDNN error: CUDNN_STATUS_NOT_SUPPORTED. This error may appear if you

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
文档导读 - AI开发平台ModelArts
文档导读 - AI开发平台ModelArts

文档导读本文档指导您如何安装和配置开发环境、如何通过调用ModelArts SDK提供的接口函数进行二次开发。章节内容 SDK简介简要介绍ModelArts SDK的概念。快速开始介绍如何使用ModelArts SDK进行二次开发。（可选）本地服务器安装ModelArts

帮助中心 > AI开发平台ModelArts > SDK参考
日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” 问题现象在使用keras时，升级版本>=2.3.0之后，之前跑通的代码出现如下报错： TypeError: Unexpected keyword argument passed

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用前必读 - AI开发平台ModelArts

使用前必读在调用ModelArts API之前，请确保已经充分了解ModelArts相关概念，详细信息请参见产品介绍。 ModelArts提供了REST（Representational State Transfer）风格API，支持您通过HTTPS请求调用，调用方法请参见如何调用

 帮助中心 > AI开发平台ModelArts > API参考
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 问题现象使用pandas读取csv数据表时，日志报出如下错误导致训练作业失败： pandas.errors.ParserError

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

图2 添加指标关于更多指标浏览方法请参考华为云帮助中心“应用运维管理 AOM> 用户指南（2.0）> 指标浏览”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
日志提示“ Network is unreachable” - AI开发平台ModelArts

日志提示“ Network is unreachable” 问题现象在使用pytorch时，将torchvision.models中的pretrained置为了True，日志中出现如下报错： ‘OSError: [Errno 101] Network is unreachable

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件问题现象训练作业的状态一直在“创建中”，查看训练作业的“事件”，有异常信息“实例挂卷失败”，详情为“Unable to mount volumes for pod xxx ... list of unmounted volumes=[nfs-x

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
使用VS Code创建并调试训练作业 - AI开发平台ModelArts

使用VS Code创建并调试训练作业由于AI开发者会使用VS Code工具开发算法或模型，为方便快速将本地代码提交到ModelArts的训练环境、贴近本地开发习惯地编写启动命令，ModelArts提供了一个训练作业场景下的IDE插件ModelArts-HuaweiCloud，用户通过简易的操作

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。获取配套版本本方案支持的软件配套版本和依赖包获取地址如表1所示。表1 软件配套版本和获取地址软件名称说明下载地址 AscendCloud-3rdLLM-6.3.905-xxx.zip 说明：软件包名称中的xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。软件配套版本本方案支持的软件配套版本和依赖包获取地址如表1所示。表1 软件配套版本和获取地址软件名称说明下载地址 AscendCloud-6.3.906-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 准备工作
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” 问题现象使用pytorch进行分布式训练时，日志中出现报错“RuntimeError: connect() timed out”。原因分析出现该问题的可能原因如下：如果在此之前是有进行数据复制的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” 问题现象训练作业失败，日志报出如下错误： RuntimeError: cuda runtime error (10) : invalid device ordinal

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” 问题现象训练作业访问OBS时，出现如下报错： ERROR:root:Failed to call: func= <bound method ObsClient.getObjectMetadata

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" 问题现象在程序运行过程中，出现如下类似错误。 1.‘failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” 问题现象在使用pytorch启动多进程的时候，出现如下报错： RuntimeError: Cannot re-initialize CUDA in

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
训练作业失败，返回错误码139 - AI开发平台ModelArts

训练作业失败，返回错误码139 问题现象训练作业运行失败，返回错误码139，如下图所示： [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
OOM导致训练作业失败 - AI开发平台ModelArts

OOM导致训练作业失败问题现象因为OOM导致的训练作业失败，会有如下几种现象。错误码返回137，如下图所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

产品优势 ModelArts服务具有以下产品优势。稳定安全的算力底座，极快至简的模型训练支持万节点计算集群管理大规模分布式训练能力，加速大模型研发提供高性价比国产算力多年软硬件经验沉淀，AI场景极致优化加速套件，训练、推理、数据访问多维度加速一站式端到端生产工具链，一致性开发体验

 帮助中心 > AI开发平台ModelArts > 产品介绍
日志提示“No space left on device” - AI开发平台ModelArts

日志提示“No space left on device” 问题现象训练过程中复制数据/代码/模型时出现如下报错：图1 错误日志原因分析出现该问题的可能原因如下。磁盘空间不足。分布式作业时，有些节点的docker base size配置未生效，容器内“/”根目录空间未达到

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障

总条数： 1176

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” - AI开发平台ModelArts

文档导读 - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

使用前必读 - AI开发平台ModelArts

日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

日志提示“ Network is unreachable” - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

使用VS Code创建并调试训练作业 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

产品优势 - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线