检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU裸金属服务器无法Ping通如何解决 问题现象 在华为云使用GPU裸金属服务器时, 服务器绑定EIP(华为云弹性IP服务)后,出现无法ping通弹性公网IP现象。 原因分析 查看当前GPU裸金属服务器的安全组的入方向规则的配置,发现仅开通了TCP协议的22端口。 ping命令
GPU A系列裸金属服务器RoCE带宽不足如何解决? 问题现象 GP Ant8支持RoCE网卡, Ubuntu20.04场景,在进行nccl-tests时,总线带宽理论峰值可达90GB/s,但实际测试下来的结果只有35GB/s。 原因分析 “nv_peer_mem”是一个Linux内核
GPU A系列裸金属服务器如何更换NVIDIA和CUDA? 场景描述 当裸金属服务器预置的NVIDIA版本和业务需求不匹配时,需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器(Ubuntu20.04系统)如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA
GPU A系列裸金属服务器无法获取显卡如何解决 问题现象 在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下: > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__
Server服务器创建时绑定的虚拟私有云,单击链接可跳转到虚拟私有云详情页。 裸金属服务器 Lite Server服务器为一台裸金属服务器,单击链接可跳转至对应弹性裸金属服务器的详情页。 镜像 Lite Server服务器的镜像。 创建时间 Lite Server服务器的创建时间。
A系列裸金属服务器如何进行RoCE性能带宽测试? 场景描述 本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。 前提条件 GPU A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20
GPU A系列裸金属服务器没有任务但GPU被占用如何解决 问题现象 服务器没有任务,但GPU显示被占用。 图1 显卡运行状态 处理方法 nvidia-smi -pm 1 父主题: Lite Server
据和算法至OBS(首次使用时需要)。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像需要用Ubuntu 18.04的。 ECS服务器和SFS Turbo需要在同一子网中。 操作步骤 在ECS服务器中设置华为云镜像源。 sudo sed -i
可以两个账号同时进行一个数据集的标注吗? 可以多人同时标注,但多人同时对同一张图片标注的话,只会以最后一个保存的人的标注结果为最终标注结果。建议轮流标注并及时保存标注结果。 父主题: Standard数据管理
(可选)本地服务器安装ModelArts SDK 如果需要在个人PC或虚拟机上使用ModelArts SDK,则需要在本地环境中安装ModelArts SDK,安装后可直接调用ModelArts SDK轻松管理数据集、创建ModelArts训练作业及创建AI应用,并将其部署为在线服务。
专属资源池购买后,中途扩容了一个节点,如何计费? 华为云会重新计算一个增加了该节点的账单,付费以后才能使用。 父主题: Standard资源池
同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器,当用户在云服务器页面修改了裸金属服务器状态后,您可通过“同步”功能,同步其状态至ModelArts。 登录ModelArts管理控制台。 在左侧导航栏中,选择“AI专属资源池 > 弹性节点 Server”,进入“弹性节点
A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器,单台服务
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。
模型 应用场景 Notebook等线上开发工具工程化开发体验不如IDE,但是本地开发服务器等资源有限,运行和调试环境大多使用团队公共搭建的CPU或GPU服务器,并且是多人共用,这带来一定的环境搭建和维护成本。因此使用本地IDE+远程Notebook结合的方式,可以同时享受IDE工
如何将多个物体检测的数据集合并成一个数据集? 可以在OBS桶中创建一个父级目录,目录下面设置不同的文件夹,将多个数据集分别导出到这些文件夹里面,最后用父目录创数据集即可。 登录ModelArts管理控制台,选择“数据管理>数据集”进入数据集概览页,单击右上角“导出”,将对应的数据
35bd-4e1c-ba08-a3a686bc5097") 裸金属服务器操作系统切换状态说明 切换中, 服务器状态为“切换操作系统中”。 图4 切换中服务器状态 切换后,服务器状态为“运行中”。 图5 切换后服务器状态 父主题: Lite Server资源管理
确认信息无误,然后单击“确定”。只有处于“运行中/停止失败”状态的弹性节点Server可以执行停止操作。 停止服务器为“强制关机”方式,会中断您的业务,请确保服务器上的文件已保存。 父主题: Lite Server资源管理
哪里可以了解Atlas800训练服务器硬件相关内容 场景描述 本文提供Atlas800训练服务器硬件相关指南,包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器(型号9000)是基于华为鲲鹏920+Sn
Terminal,执行如下命令在本地计算机生成密钥对,如果您已经有一个密钥对,则可以跳过此步骤: ssh-keygen -t rsa 将公钥添加到远程服务器的授权文件中,注意替换服务器IP以及容器的端口号: cat ~/.ssh/id_rsa.pub | ssh root@服务器IP -p 容器端口号 "mkdir