检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
A系列裸金属服务器如何进行RoCE性能带宽测试? 场景描述 本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。 前提条件 GPU A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20
A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器,单台服务
Turbo文件系统。同一区域不同可用区之间文件系统与云服务器互通,因此保证SFS Turbo与Server服务器在同一区域即可。 当创建文件系统后,您需要使用弹性裸金属服务器来挂载该文件系统,具体步骤请参考挂载NFS协议类型文件系统到云服务器(Linux)。 为避免已挂载文件系统的云服务器重启后,挂载信息丢失,
据和算法至OBS(首次使用时需要)。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像需要用Ubuntu 18.04的。 ECS服务器和SFS Turbo需要在同一子网中。 操作步骤 在ECS服务器中设置华为云镜像源。 sudo sed -i
Server服务器创建时绑定的虚拟私有云,单击链接可跳转到虚拟私有云详情页。 裸金属服务器 Lite Server服务器为一台裸金属服务器,单击链接可跳转至对应弹性裸金属服务器的详情页。 镜像 Lite Server服务器的镜像。 创建时间 Lite Server服务器的创建时间。
PyTorch:2.1.0 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必
PyTorch:2.1.0 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。
创建模型成功后,部署服务报错,如何排查代码问题 问题现象 创建模型成功后,部署服务失败,如何定位是模型代码编写有问题。 原因分析 用户自定义镜像或者通过基础镜像导入的模型时,用户自己编写了很多自定义的业务逻辑,这些逻辑有问题将会导致服务部署或者预测失败,需要能够排查出哪里有问题。
(可选)本地服务器安装ModelArts SDK 如果需要在个人PC或虚拟机上使用ModelArts SDK,则需要在本地环境中安装ModelArts SDK,安装后可直接调用ModelArts SDK轻松管理数据集、创建ModelArts训练作业及创建AI应用,并将其部署为在线服务。
NPU服务器上配置Lite Server资源软件环境 注意事项 本文旨在指导如何在Snt9b裸金属服务器上,进行磁盘合并挂载、安装docker等环境配置。在配置前请注意如下事项: 首次装机时需要配置存储、固件、驱动、网络访问等基础内容,这部分配置尽量稳定减少变化。 裸机上的开发形
x86_64架构的主机,操作系统使用Ubuntu-18.04。您可以准备相同规格的弹性云服务器ECS或者应用本地已有的主机进行自定义镜像的制作。 购买ECS服务器的具体操作请参考购买并登录Linux弹性云服务器。“CPU架构”选择“x86计算”,“镜像”选择“公共镜像”,推荐使用Ubuntu18
由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源,不同机型的节点对应的操作系统、适用的CCE集群版本等不相同,为了便于您制作镜像、升级软件等操作,本文对不同机型对应的软件配套版本做了详细介绍。 裸金属服务器的对应的软件配套版本 表1 裸金属服务器 类型 卡类型 RDMA网络协议
上传数据和算法至SFS(首次使用时需要) 前提条件 ECS服务器已挂载SFS,请参考ECS服务器挂载SFS Turbo存储。 在ECS中已经创建ma-user和ma-group用户,请参考在ECS中创建ma-user和ma-group。 已经安装obsutil,请参考下载和安装obsutil。
Standard功能介绍 Standard自动学习 Standard Workflow Standard数据管理 Standard开发环境 Standard模型训练 Standard模型部署 Standard资源管理 Standard支持的AI框架 父主题: 功能介绍
确认信息无误,然后单击“确定”。只有处于“运行中/停止失败”状态的弹性节点Server可以执行停止操作。 停止服务器为“强制关机”方式,会中断您的业务,请确保服务器上的文件已保存。 父主题: Lite Server资源管理
ssh 上传公钥到服务器。 例如用户名为root,服务器地址为192.168.222.213,则将公钥上传至服务器的命令如下: ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.222.213 通过如下命令可以看到客户端写入到服务器的id_rsa
切换Lite Server服务器操作系统 场景描述 Lite Server为一台弹性裸金属服务器,您可以使用BMS服务提供的切换操作系统功能,对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式: 在BMS控制台切换操作系统 使用BMS Go SDK的方式切换操作系统
创建密钥对,操作指导请参考如何创建密钥对? 购买虚拟私有云VPC 虚拟私有云可以为您构建隔离的、用户自主配置和管理的虚拟网络环境,操作指导请参考创建虚拟私有云和子网。 购买弹性云服务器ECS 如果您需要在服务器上部署相关业务,较之物理服务器,弹性云服务器的创建成本较低,并且可以在
ECS中构建新镜像 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压A