检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用GPU A系列裸金属服务器有哪些注意事项? 使用华为云A系列裸金属服务器时有如下注意事项: nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致,可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配,可单击此处可查看配套关系和安装方法。
NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 key_pair_names 否 Array of strings SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。 表4 VolumeReq 参数
Toolkit插件提供的登录和连接按钮,连接云上实例。 VS Code手动连接Notebook 该方式是指用户使用VS Code Remote SSH插件手工配置连接信息,连接云上实例。 安装VS Code软件 使用VS Code连接开发环境时,首先需要安装VS Code软件。 VS
NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys Array of strings SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 service String 访问Notebook的途径,枚举值如下:
NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys Array of strings SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 service String 访问Notebook的途径,枚举值如下:
准备工作: 购买服务资源(VPC/SFS/OBS/SWR/ECS) 配置权限 创建专属资源池(打通VPC) ECS服务器挂载SFS Turbo存储 在ECS中设置ModelArts用户可读权限 安装和配置OBS命令行工具 (可选)工作空间配置 模型训练: 线下容器镜像构建及调试 上传镜像 上传数据至OBS(首次使用时需要)
NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys Array of strings SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 service String 访问Notebook的途径,枚举值如下:
A系列裸金属服务器如何进行RoCE性能带宽测试? 场景描述 本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。 前提条件 GPU A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20
NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys Array of strings SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 service String 访问Notebook的途径,枚举值如下:
Server提供多样化的xPU裸金属服务器,赋予用户以root账号自主安装和部署AI框架、应用程序等第三方软件的能力,为用户打造专属的云上物理服务器环境。用户只需轻松选择服务器的规格、镜像、网络配置及密钥等基本信息,即可迅速创建弹性裸金属服务器,获取所需的云上物理资源,充分满足算法工程师在日常训练和推理工作中的需求。
NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys Array of strings SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 service String 访问Notebook的途径,枚举值如下:
可能系统资源不足、如内存不足、内存泄露。 硬件故障、如IB网络或者GPU互联设备故障等。 没安装nvidia-fabricmanager组件或被误卸载。 处理方法 如果未安装fabricmanager,则需安装改组件。 如果已安装fabricmanager,运行以下命令重启fabricmanager.service。
如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y
但是达不到预期,可能是nv_peer_mem异常。 处理方法 查看nv_peer_mem是否已安装。 dpkg -i | grep peer 如果未安装则需要安装,安装方法参考装机指导。 如果已安装则进入下一检测项。 查看该软件是否已经加载至内核。 lsmod | grep peer
远程连接出现弹窗报错:Could not establish connection to xxx 问题现象 原因分析 执行VS Code Remote SSH连接失败。 解决方法 单击弹窗右上角关闭弹窗,查看OUTPUT中的具体报错信息,并参考后续章节列举的几种常见报错解决问题。
NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys Array of strings SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 service String 访问Notebook的途径,枚举值如下:
NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 ssh_keys Array of strings SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 service String 访问Notebook的途径,枚举值如下:
已拥有需要部署SNAT的弹性云服务器。 待部署SNAT的弹性云服务器操作系统为Linux操作系统。 待部署SNAT的弹性云服务器网卡已配置为单网卡。 步骤一:打通VPC 通过打通VPC,可以方便用户跨VPC使用资源,提升资源利用率。 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池
驱动程序问题:可能是由于驱动程序没有正确安装或配置,导致NVLINK带宽受限。重新安装nvidia驱动、CUDA和nvidia-fabricmanager等软件后,驱动程序可能已经正确配置,从而解决了这个问题。 硬件问题:如果GPU之间的NVLINK连接存在硬件故障,那么这可能会导致带宽受限。重新安装软件后,重
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。