检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
PyTorch:2.1.0 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必
PyTorch:2.1.0 Step1 创建ECS 下文中介绍如何在ECS中构建一个推理镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必
A系列裸金属服务器如何进行RoCE性能带宽测试? 场景描述 本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。 前提条件 GPU A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20
ssh 上传公钥到服务器。 例如用户名为root,服务器地址为192.168.222.213,则将公钥上传至服务器的命令如下: ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.222.213 通过如下命令可以看到客户端写入到服务器的id_rsa
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 问题现象 在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7,使用Pytorch2.0时出现如下错误: CUDA
A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器,单台服务
GPU A系列裸金属服务器RoCE带宽不足如何解决? 问题现象 GP Ant8支持RoCE网卡, Ubuntu20.04场景,在进行nccl-tests时,总线带宽理论峰值可达90GB/s,但实际测试下来的结果只有35GB/s。 原因分析 “nv_peer_mem”是一个Linu
哪里可以了解Atlas800训练服务器硬件相关内容 场景描述 本文提供Atlas800训练服务器硬件相关指南,包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器(型号9000)是基于华为鲲鹏920+Sn
端口和ws跟wss的配置是否正确。 连接成功后结果如下: 图3 连接成功 优先验证自定义镜像提供的websocket服务的情况,不同的工具实现的websocket服务会有不同,可能出现连接建立后维持不住,可能出现请求一次后连接就中断需要重新连接的情况,ModelArts平台只保证
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 问题现象 创建出3台GPU裸金属服务器,使用A节点制作镜像,用于在CCE纳管裸金属服务器时,使用该镜像,但是纳管后发现服务器A纳管失败,剩下两台服务器纳管成功。 原因分析 在CCE纳管过程中,需要通过cloudinit
VS Code连接后长时间未操作,连接自动断开 问题现象 VS Code SSH连接后,长时间未操作,窗口未关闭,再次使用发现VS Code在重连环境,无弹窗报错。左下角显示如下图: 查看VS Code Remote-SSH日志发现,连接在大约2小时后断开了: 原因分析 用户SS
Code连接Notebook 操作指导 02:16 VS Code一键连接Notebook VS Code连接Notebook后使用介绍 操作指导 06:08 VS Code连接Notebook后使用介绍 使用PyCharm远程连接Notebook 操作指导 16:29 使用PyCharm远程连接Notebook
VS Code连接后长时间未操作,连接自动断开 问题现象 VS Code SSH连接后,长时间未操作,窗口未关闭,再次使用发现VS Code在重连环境,无弹窗报错。左下角显示如下图: 查看VS Code Remote-SSH日志发现,连接在大约2小时后断开了: 原因分析 用户SS
Turbo文件系统。同一区域不同可用区之间文件系统与云服务器互通,因此保证SFS Turbo与Server服务器在同一区域即可。 当创建文件系统后,您需要使用弹性裸金属服务器来挂载该文件系统,具体步骤请参考挂载NFS协议类型文件系统到云服务器(Linux)。 为避免已挂载文件系统的云服务器重启后,挂载信息丢失,
GPU A系列裸金属服务器没有任务但GPU被占用如何解决 问题现象 服务器没有任务,但GPU显示被占用。 图1 显卡运行状态 处理方法 nvidia-smi -pm 1 父主题: Lite Server
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed 问题现象 弹性文件服务(Scalable File Service,SFS)提供按需扩展的高性能文件存储(NAS),可以在裸金属服务器中通过网络协议挂载使用,SFS支持NFS
Notebook实例重新启动后,需要删除本地known_hosts才能连接 可以在本地的ssh config文件中对这个Notebook配置参数“StrictHostKeyChecking no”和“UserKnownHostsFile=/dev/null”,如下参考所示: Host
String 服务器镜像名称。 server_type String 服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 请求示例 PUT https://{endpoint}/v1/{project_id}/dev-servers/{id}/stop 响应示例 状态码:
String 服务器镜像名称。 server_type String 服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 请求示例 DELETE https://{endpoint}/v1/{project_id}/dev-servers/{id} 响应示例 状态码: