搜索_华为云

PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

PyTorch1.0引擎提示“RuntimeError: std:exception” 问题现象在使用PyTorch1.0镜像时，必现如下报错： “RuntimeError: std:exception” 原因分析 PyTorch1.0镜像中的libmkldnn软连接与原生torch的冲突，具体可参看文档。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

ModelArts训练作业无法解析参数，日志报错问题现象 ModelArts训练作业无法解析参数，遇到如下报错，导致无法正常运行： error: unrecognized arguments: --data_url=xxx://xxx/xxx error: unrecognized

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败问题现象训练作业的“状态”为“运行失败”。原因分析训练作业的监控内存指标持续升高，导致最后训练作业失败。处理步骤查询训练作业的日志和监控信息，是否存在明确的OOM报错信息。是，训练作业的日志里存在OOM报错，执行2。否，训

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
使用CES监控Lite Server资源 - AI开发平台ModelArts

使用CES监控Lite Server资源场景描述 Lite Server的监控能力依赖于CES云监控服务。本文主要介绍如何对接CES云监控服务，对Lite Server上的资源和事件进行监控。监控方案介绍监控概述请参考BMS官方文档。除文档所列支持的镜像之外，目前还支持Ubuntu20

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” 问题现象在使用keras时，升级版本>=2.3.0之后，之前跑通的代码出现如下报错： TypeError: Unexpected keyword argument passed

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中，去升级了pytroch1.4的版本，导致之前在pytroch1.3跑通的代码报错如下： “Runtim

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
安装Gallery CLI配置工具 - AI开发平台ModelArts

示该资产支持使用Gallery CLI配置工具下载，如图1所示。图1 复制完整资产名称 “运行平台”设置为“Pangu Studio”的数据集，不支持使用CLI工具下载。下载Gallery CLI配置工具包（本地）如果是在本地服务器安装Gallery CLI配置工具，则参考本节将工具包下载至本地。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志 - AI开发平台ModelArts

通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志问题现象用户通过OBS导入模型时，选择使用基础镜像，用户自己编写了部分推理代码实现自己的推理逻辑，出现故障后希望通过故障日志排查定位故障原因，但是通过logger打印日志无法在“在线服务”的日志中查看到部分内容。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
日志提示“ Network is unreachable” - AI开发平台ModelArts

日志提示“ Network is unreachable” 问题现象在使用pytorch时，将torchvision.models中的pretrained置为了True，日志中出现如下报错： ‘OSError: [Errno 101] Network is unreachable’

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

之间的float，实际使用的显存是系统读取的最大显存*gpu-memory-utilization。 --max-model-len：最大数据输入+输出长度，不能超过模型配置文件config.json里面定义的“max_position_embeddings”和“seq_leng

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

TensorFlow-1.8作业连接OBS时反复出现提示错误问题现象基于TensorFlow-1.8启动训练作业，并在代码中使用“tf.gfile”模块连接OBS，启动训练作业后会频繁打印如下日志信息： Connection has been released. Continuing

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

自定义镜像导入配置运行时依赖无效问题现象通过API接口选择自定义镜像导入创建模型，配置了运行时依赖，没有正常安装pip依赖包。原因分析自定义镜像导入不支持配置运行时依赖，系统不会自动安装所需要的pip依赖包。处理方法重新构建镜像。在构建镜像的dockerfile文件

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

训练作业的日志出现detect failed（昇腾预检失败）问题现象训练启动的日志出现如下相关错误： time="2023-05-27T07:07:08Z" level=error msg="detect failed, error: dsmi-checker detect failed

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配问题现象在现有镜像基础上，重新装了引擎版本，或者编译了新的CUDA包，出现如下错误： 1.“RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten/s

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

日志提示“Please upgrade numpy to >= xxx to use this pandas version” 问题现象在安装其他包的时候，有依赖冲突，对numpy库有其他要求，但是发现numpy卸载不了。出现如下类似错误： your numpy version

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
通过自定义镜像创建模型失败 - AI开发平台ModelArts

通过自定义镜像创建模型失败问题现象通过用户自定义镜像创建模型失败。原因分析可能原因如下：导入模型使用的镜像地址不合法或实际镜像不存在用户给ModelArts的委托中没有SWR相关操作权限用户为子账号，没有主账号SWR的权限使用的是非自己账号的镜像使用的镜像为公开镜像

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” - AI开发平台ModelArts

训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” 问题现象训练日志中出现AttributeError: module '***' has no attribute '***'错误。如：AttributeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
Ascend-vLLM介绍 - AI开发平台ModelArts

Ascend-vLLM介绍 Ascend-vLLM概述 vLLM是GPU平台上广受欢迎的大模型推理框架，因其高效的continuous batching和pageAttention功能而备受青睐。此外，vLLM还具备投机推理和自动前缀缓存等关键功能，使其在学术界和工业界都得到了广泛应用。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

使用moxing适配OBS路径，pandas读取文件报错问题现象使用moxing适配OBS路径，然后用较高版本的pandas读取OBS文件报出如下错误： 1.‘can't decode byte xxx in position xxx’ 2.‘OSError:File isn't

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障

总条数： 1615

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

安装Gallery CLI配置工具 - AI开发平台ModelArts

通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志 - AI开发平台ModelArts

日志提示“ Network is unreachable” - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

通过自定义镜像创建模型失败 - AI开发平台ModelArts

训练作业日志中提示 “AttributeError: module '' has no attribute ''” - AI开发平台ModelArts

Ascend-vLLM介绍 - AI开发平台ModelArts

使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线