检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。
Code Toolkit插件提供的登录和连接按钮,连接云上实例。 VS Code手动连接Notebook 该方式是指用户使用VS Code Remote SSH插件手工配置连接信息,连接云上实例。 安装VS Code软件 使用VS Code连接开发环境时,首先需要安装VS Code软件。
T。 查看可用IP数量(可选) 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“网络”页签,单击网络列表中某个网络操作列的“更多 > 查看可用IP数量”,可以看到该网络所在的网段中可以使用的IP地址数量。 图3 查看可用IP数量
cann_8.0.rc3 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表2所示。 表2 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.912-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的推理部署代
确定带宽 服务器A:服务端从mlx4_0网卡接收数据 ib_write_bw -a -d mlx5_0 服务器B:客户端向服务端mlx4_0网卡发送数据。 ib_write_bw -a -F 服务器A的IP -d mlx5_0 --report_gbits 图1 服务器A执行结果
GPU A系列裸金属服务器无法获取显卡如何解决 问题现象 在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下: > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__
pipeline应用准备 当前迁移路径是从ONNX模型转换到MindIR模型,再用MindSpore Lite做推理, 所以迁移前需要用户先准备好自己的ONNX pipeline。下文以官方开源的图生图的Stable Diffusion v1.5的onnx pipeline代码为例进行说明。
A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器,单台服务
使用Gallery CLI配置工具上传文件 在服务器(ModelArts Lite云服务器或者是本地Windows/Linux等服务器)上登录Gallery CLI配置工具后,通过命令“gallery-cli upload”可以往AI Gallery仓库上传资产。 命令说明 登录Gallery
更高的效率和更低的功耗。 密钥对 弹性裸金属支持SSH密钥对的方式进行登录,用户无需输入密码就可以登录到弹性裸金属服务器,因此可以防止由于密码被拦截、破解造成的账户密码泄露,从而提高弹性裸金属服务器的安全性。 说明: 为保证云服务器安全,未进行私钥托管的私钥只能下载一次,请妥善保管。
使用Gallery CLI配置工具下载文件 在服务器(ModelArts Lite云服务器或者是本地Windows/Linux等服务器)上登录Gallery CLI配置工具后,通过命令“gallery-cli download”可以从AI Gallery仓库下载资源。 命令说明 登录Gallery
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 问题现象 在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7,使用Pytorch2.0时出现如下错误: CUDA
置指定IP后,则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String 访问Notebook的途径,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys
选择正确的密钥文件 当左下角显示如下状态时,代表实例连接成功: 图10 实例连接成功 当弹出如下错误时,代表实例连接失败,请关闭弹窗,并查看OUTPUT窗口的输出日志,请查看FAQ并排查失败原因。 图11 实例连接失败 远程调试代码 在VS Code界面,上传本地代码到云端开发环境。 单击“File
置指定IP后,则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String 访问Notebook的途径,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys
由于AI开发者会使用PyCharm工具开发算法或模型,为方便快速将本地代码提交到ModelArts的训练环境,ModelArts提供了一个PyCharm插件工具PyCharm ToolKit,协助用户完成SSH远程连接Notebook、代码上传、提交训练作业、将训练日志获取到本地展示等,用户只需要专注于本地的代码开发即可。
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本
使用VS Code连接实例时,发现VS Code端的实例目录和云上目录不匹配 问题现象 用户使用VS Code连接实例时,发现VS Code端的实例目录和云上目录不匹配。 原因分析 实例连接错误,可能是配置文件写的不规范导致连接到别的实例。 解决方案 检查用户.ssh配置文件(路径一般在“C:\Users\{User}\
参数说明: - IdentityFile:本地密钥路径 - User:用户名,例如:ma-user - HostName:IP地址 - Port:端口号 vscode-server相关问题也可以使用上述的解决方法。 父主题: VS Code连接开发环境失败故障处理
docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1,执行以下命令配置IP转发。