搜索_华为云

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

此时无论DH Cient是否关闭，服务器都可以获取分配IP。当服务器没有网卡配置文件时，DH Client开启，此时服务器会分配私有IP。如果关闭DH Client，则服务器无法获取私有IP。图2 查看NetworkManager配置图3 查看网络配置命令“yum update -y”或“yum

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决问题现象 GP Vnt1裸金属服务器，操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版)，经常遇到服务器重启后，操作系统内核无故升级，导致系统上原安装的nvidia-driver等软件无法使用，只能卸载重新安装。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在ModelArts Standard上运行GPU单机多卡训练任务 - AI开发平台ModelArts

查看到对应的镜像信息。为什么使用客户端上传镜像失败？上传数据和算法至SFS ECS服务器已挂载SFS，请参考在ECS服务器挂载SFS Turbo存储。已经在ECS中设置权限，请参考在ECS中设置ModelArts用户可读权限。已经安装和配置obsutil，请参见安装和配置OBS命令行工具。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练任务
设置断点续训练 - AI开发平台ModelArts

设置断点续训练什么是断点续训练断点续训练是指因为某些原因（例如容错重启、资源抢占、作业卡死等）导致训练作业还未完成就被中断，下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。断点续训练是通过checkpoint机制实现。 checkp

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
设置无条件自动重启 - AI开发平台ModelArts

适配断点续训，操作指导请参见设置断点续训练。当训练过程中触发了自动重启，则系统会记录重启信息，在训练作业详情页可以查看故障恢复详情，具体请参见训练作业重调度。开启无条件自动重启开启无条件自动重启有2种方式：控制台设置或API接口设置。控制台设置在创建训练作业页面，开启“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
训练作业使用MoXing拷贝数据较慢，重复打印日志 - AI开发平台ModelArts

训练作业使用MoXing拷贝数据较慢，重复打印日志问题现象 ModelArts训练作业使用MoXing拷贝数据较慢。重复打印日志“INFO:root:Listing OBS”。原因分析拷贝数据慢的可能原因如下：直接从OBS上读数据会造成读数据变成训练的瓶颈，导致迭代缓慢。

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% 原因是代码运行卡死导致被进程清理，GPU显存没有释放；或者代码运行过程中内存溢出导致程序被清理，需要释放下显存，清理GPU，然后重新启动。为了避免进程结束引起的代码未保存，建议您每隔一段时间保存下代码输出至OBS桶或者容器

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > Notebook实例常见错误
在Linux上安装配置Grafana - AI开发平台ModelArts

一台可访问外网的Ubuntu服务器。如果没有请具备以下条件：准备一台ECS服务器（建议规格选8U或者以上，镜像选择Ubuntu，建议选择22.04版本，本地存储100G），具体操作请参考《弹性云服务器快速入门》。购买弹性公网IP，并绑定到购买的弹性云服务器ECS上，具体操作请参见《弹性公网IP快速入门》。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

directory'). update products failed! 原因分析用户代码中设置的目标路径（local_path）有误。处理方法需要将local_path路径设置为文件夹且后缀必须以“/”结尾。父主题： API/SDK

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
如何在代码中打印GPU使用信息 - AI开发平台ModelArts

如何在代码中打印GPU使用信息用户可通过shell命令或python命令查询GPU使用信息。使用shell命令执行nvidia-smi命令。依赖CUDA nvcc watch -n 1 nvidia-smi 执行gpustat命令。 pip install gpustat

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
训练管理 - AI开发平台ModelArts
训练管理 - AI开发平台ModelArts

训练管理创建算法查询算法列表查询算法详情更新算法删除算法获取支持的超参搜索算法创建训练作业查询训练作业详情更新训练作业描述删除训练作业终止训练作业查询训练作业指定任务的日志（预览）查询训练作业指定任务的日志（OBS链接）查询训练作业指定任务的运行指标查询训练作业列表

 帮助中心 > AI开发平台ModelArts > API参考
VS Code中设置远端默认安装的插件 - AI开发平台ModelArts

VS Code中设置远端默认安装的插件在VS Code的配置文件settings.json中添加remote.SSH.defaultExtensions参数，如自动安装Python和Maven插件，可配置如下。 "remote.SSH.defaultExtensions": [

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code使用技巧
TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

NFO级别的日志信息。环境变量的设置一定要在import tensorflow或者import moxing之前。处理方法您需要通过在代码中设置环境变量“TF_CPP_MIN_LOG_LEVEL”来屏蔽INFO级别的日志信息。具体操作如下： import os os.env

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

弹性文件服务（Scalable File Service，SFS）提供按需扩展的高性能文件存储（NAS），可以在裸金属服务器中通过网络协议挂载使用，SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时，将数据放在SFS盘中，并发建立多个NFS链接、并发的读写数据、做大模型训练。但有时候会出

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
AI引擎Scikit_Learn0.18.1的运行环境怎么设置？ - AI开发平台ModelArts

AI引擎Scikit_Learn0.18.1的运行环境怎么设置？在ModelArts的算法管理页面，创建算法时勾选“显示旧版镜像”，选择XGBoost-Sklearn引擎即可。 ModelArts创建算法操作请参见创建算法。 ModelArts创建训练作业操作请参见创建训练作业。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

Server-Sent Events（SSE）是一种服务器向客户端推送数据的技术，它是一种基于HTTP的推送技术，服务器可以向客户端推送事件。这种技术通常用于实现服务器向客户端推送实时数据，例如聊天应用、实时新闻更新等。 SSE主要解决了客户端与服务器之间的单向实时通信需求（例如ChatGP

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将AI应用部署为实时推理作业 > 访问在线服务支持的传输协议
训练作业找不到GPU - AI开发平台ModelArts

根据错误信息判断，报错原因为训练作业运行程序读取不到GPU。处理方法根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7' 其中，0为服务器的GPU编号，可以为0，1，2，3等，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题

总条数： 1888

上一页
1
2
3
4
5
...
95
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练任务 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

训练作业使用MoXing拷贝数据较慢，重复打印日志 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

在Linux上安装配置Grafana - AI开发平台ModelArts

ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

如何在代码中打印GPU使用信息 - AI开发平台ModelArts

训练管理 - AI开发平台ModelArts

VS Code中设置远端默认安装的插件 - AI开发平台ModelArts

TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

AI引擎Scikit_Learn0.18.1的运行环境怎么设置？ - AI开发平台ModelArts

使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线