检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用SSH连接,报错“Connection reset”如何解决? 问题现象 原因分析 可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。 解决方法 用户重新进行申请SSH权限。 父主题: VS Code连接开发环境失败故障处理
TMOUT=0这个命令在SSH连接Linux服务器时的作用是设置会话的空闲超时时间为0,意味着不会因为空闲而自动断开连接。默认情况下,SSH连接可能会在一段时间没有操作后自动断开,这是为了安全考虑。但是,如果您正在进行需要长时间保持连接的任务,可以使用这个命令来防止连接因为空闲而断开。您可
VSCode远程连接时卡顿,或Python调试插件无法使用如何处理? 问题现象 VSCode远程连接Notebook时,单击“VS Code接入”跳转至连接界面时一直卡顿,或Python调试插件无法使用。 图1 Python调试插件错误 原因分析 该问题通常由VS Code安装了第三方中文插件引起。
GPU A系列裸金属服务器如何更换NVIDIA和CUDA? 场景描述 当裸金属服务器预置的NVIDIA版本和业务需求不匹配时,需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器(Ubuntu20.04系统)如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA
interpreter需要耗费20分钟左右。 Step5 使用插件连接云上Notebook 与Notebook断开连接的状态下,单击Notebook名称,根据提示启动本地IDE与Notebook的连接(默认启动时间4小时)。 图5 启动连接Notebook 连接状态下,单击Notebook名称,根据提示
使用MobaXterm工具SSH连接Notebook后,经常断开或卡顿,如何解决? 问题现象 MobaXterm成功连接到开发环境后,过一段时间会自动断开。 可能原因 配置MobaXterm工具时,没有勾选“SSH keepalive”或专业版MobaXterm工具的“Stop server
Code插件会先启动实例再去连接。 图8 连接Notebook实例 或者单击实例名称,在VS Code开发环境中显示Notebook实例详情页,单击“连接”,系统自动启动该Notebook实例并进行远程连接。 图9 查看Notebook实例详情页 第一次连接Notebook时,系统右
VS Code连接开发环境时报错Missing GLIBC,Missing required dependencies 问题现象 VS Code连接开发环境时报错如下: Warning: Missing GLIBC >= 2.28! from /lib/x86_64-linux-gnu/libc-2
使用GPU A系列裸金属服务器有哪些注意事项? 使用华为云A系列裸金属服务器时有如下注意事项: nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致,可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配,可单击此处可查看配套关系和安装方法。
使用VS Code连接实例时,发现VS Code端的实例目录和云上目录不匹配 问题现象 用户使用VS Code连接实例时,发现VS Code端的实例目录和云上目录不匹配。 原因分析 实例连接错误,可能是配置文件写的不规范导致连接到别的实例。 解决方案 检查用户.ssh配置文件(路
A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器,单台服务
service会优先读取网卡配置文件中的IP设置为主机IP, 此时无论DH Cient是否关闭,服务器都可以获取分配IP。 当服务器没有网卡配置文件时,DH Client开启,此时服务器会分配私有IP。如果关闭DH Client,则服务器无法获取私有IP。 图2 查看NetworkManager配置 图3 查看网络配置
ssh 上传公钥到服务器。 例如用户名为root,服务器地址为192.168.222.213,则将公钥上传至服务器的命令如下: ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.222.213 通过如下命令可以看到客户端写入到服务器的id_rsa
GPU A系列裸金属服务器RoCE带宽不足如何解决? 问题现象 GP Ant8支持RoCE网卡, Ubuntu20.04场景,在进行nccl-tests时,总线带宽理论峰值可达90GB/s,但实际测试下来的结果只有35GB/s。 原因分析 “nv_peer_mem”是一个Linu
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 问题现象 创建出3台GPU裸金属服务器,使用A节点制作镜像,用于在CCE纳管裸金属服务器时,使用该镜像,但是纳管后发现服务器A纳管失败,剩下两台服务器纳管成功。 原因分析 在CCE纳管过程中,需要通过cloudinit
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 问题现象 在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7,使用Pytorch2.0时出现如下错误: CUDA
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接 如果本地为Linux系统,见原因分析二。 原因分析一 自动安装VS Code插件ModelArts-HuaweiCloud失败。 解决方法一 方法一:检查VS Code网络是否正常。在VS
连接远端开发环境时,一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上,如何解决? 问题现象 原因分析 当前本地网络原因,导致远程自动安装VS Code Server时间过长。 解决方法