华为云用户手册

  • GP Vnt1裸金属服务器Ubuntu 18.04安装NVIDIA 470+CUDA 11.4 本小节旨在指导如何在GP Vnt1裸金属服务器上(Ubuntu 18.04系统),安装NVIDIA驱动版本470,CUDA版本11.4。 安装NVIDIA驱动。 apt-get update sudo apt-get install nvidia-driver-470 安装CUDA。 wget https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda_11.4.4_470.82.01_linux.run chmod +x cuda_11.4.4_470.82.01_linux.run ./cuda_11.4.4_470.82.01_linux.run --toolkit --samples --silent 验证NVIDIA安装结果。 nvidia-smi -pm 1 nvidia-smi /usr/local/cuda/bin/nvcc -V 安装Pytorch2.0和验证CUDA验证。 PyTorch2.0所需环境为Python3.10, 安装配置miniconda环境。 miniconda安装并创建alpha环境。 wget https://repo.anaconda.com/miniconda/Miniconda3-py310_23.1.0-1-Linux-x86_64.sh chmod 750 Miniconda3-py310_23.1.0-1-Linux-x86_64.sh bash Miniconda3-py310_23.1.0-1-Linux-x86_64.sh -b -p /home/miniconda export PATH=/home/miniconda/bin:$PATH conda create --quiet --yes -n alpha python=3.10 安装pytorch2.0并验证cuda状态。 在alpha环境下安装torch2.0,使用清华PIP源完成。 source activate alpha conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia python 验证torch与cuda的安装状态,输出为True即为正常。 import torch print(torch.cuda.is_available())
  • GP Vnt1裸金属服务器Ubuntu18.04安装NVIDIA 515+CUDA 11.7 本小节旨在指导如何在GP Vnt1裸金属服务器上(Ubuntu 18.04系统),安装NVIDIA驱动版本515、CUDA版本11.7和Docker。 NVIDIA驱动安装。 wget https://us.download.nvidia.com/tesla/515.105.01/NVIDIA-Linux-x86_64-515.105.01.run chmod +x NVIDIA-Linux-x86_64-515.105.01.run ./NVIDIA-Linux-x86_64-515.105.01.run CUDA安装。 wget https://developer.download.nvidia.com/compute/cuda/11.7.1/local_installers/cuda_11.7.1_515.65.01_linux.run chmod +x cuda_11.7.1_515.65.01_linux.run ./cuda_11.7.1_515.65.01_linux.run --toolkit --samples –silent 安装Docker。 curl https://get.docker.com | sh && sudo systemctl --now enable docker 安装NIVDIA容器插件。 distribution=$(. /etc/os-release;echo $ID$VERSION_ID) && curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list apt-get update apt-get install -y nvidia-container-toolkit nvidia-ctk runtime configure --runtime=docker systemctl restart docker 验证Docker模式环境是否安装成功。 基于PyTorch2.0镜像验证(本案例中镜像较大,拉取时间可能较长)。 docker run -ti --runtime=nvidia --gpus all pytorch/pytorch:2.0.0-cuda11.7-cudnn8-devel bash 图4 成功拉取镜像
  • GP Vnt1裸金属服务器EulerOS 2.9安装NVIDIA 515+CUDA 11.7 本小节旨在指导如何在GP Vnt1裸金属服务器上(Euler2.9系统),安装NVIDIA驱动版本515.105.01,CUDA版本11.7.1。 安装NVIDIA驱动。 wget https://us.download.nvidia.com/tesla/515.105.01/NVIDIA-Linux-x86_64-515.105.01.run chmod 700 NVIDIA-Linux-x86_64-515.105.01.run yum install -y elfutils-libelf-devel ./NVIDIA-Linux-x86_64-515.105.01.run --kernel-source-path=/usr/src/kernels/4.18.0-147.5.1.6.h998.eulerosv2r9.x86_64 默认情况下Vnt1裸金属服务器在EulerOS 2.9使用的yum源是“http://repo.huaweicloud.com”,该源可用。若执行“yum update”时报错, 显示有软件包冲突等问题, 可通过“yum remove xxx软件包”解决该问题。 NVIDIA的驱动程序是一个二进制文件,需使用系统中的libelf库(在elfutils-libelf-devel开发包)中。它提供了一组C函数,用于读取、修改和创建ELF文件,而NVIDIA驱动程序需要使用这些函数来解析当前正在运行的内核和其他相关信息。 安装过程中的提示均选OK或YES,安装好后执行reboot重启机器,再次登录后执行命令查看GPU卡信息。 nvidia-smi -pm 1 #该命令执行时间较长,请耐心等待,作用为启用持久模式,可以优化Linux实例上GPU设备的性能 nvidia-smi 安装CUDA。 wget https://developer.download.nvidia.com/compute/cuda/11.7.1/local_installers/cuda_11.7.1_515.65.01_linux.run chmod 700 cuda_11.7.1_515.65.01_linux.run ./cuda_11.7.1_515.65.01_linux.run --toolkit --samples --silent 安装好后执行以下命令检查安装结果: /usr/local/cuda/bin/nvcc -V PyTorch2.0安装和CUDA验证指南。 PyTorch2.0所需环境为Python3.10, 安装配置miniconda环境。 miniconda安装并创建alpha环境。 wget https://repo.anaconda.com/miniconda/Miniconda3-py310_23.1.0-1-Linux-x86_64.sh chmod 750 Miniconda3-py310_23.1.0-1-Linux-x86_64.sh bash Miniconda3-py310_23.1.0-1-Linux-x86_64.sh -b -p /home/miniconda export PATH=/home/miniconda/bin:$PATH conda create --quiet --yes -n alpha python=3.10 安装pytorch2.0并验证cuda状态。 在alpha环境下安装torch2.0,使用清华PIP源完成。 source activate alpha pip install torch==2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple python 验证torch与cuda的安装状态,输出为True即为正常。 import torch print(torch.cuda.is_available())
  • GP Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 515+CUDA 11.7 本小节旨在指导如何在GP Vnt1裸金属服务器上(Ubuntu 20.04系统),安装NVIDIA驱动版本515、CUDA版本11.7、 nvidia-fabricmanager515,并进行nccl-test测试。 替换apt源。 sudo sed -i "s@http://.*archive.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list sudo sed -i "s@http://.*security.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list sudo apt update 安装nvidia驱动。 wget https://us.download.nvidia.com/tesla/515.105.01/NVIDIA-Linux-x86_64-515.105.01.run chmod +x NVIDIA-Linux-x86_64-515.105.01.run ./NVIDIA-Linux-x86_64-515.105.01.run 安装cuda。 # run包安装 wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda_11.7.0_515.43.04_linux.run chmod +x cuda_11.7.0_515.43.04_linux.run ./cuda_11.7.0_515.43.04_linux.run --toolkit --samples --silent 安装nccl。 nccl安装可参考NCCL Documentation。 nccl和cuda版本的配套关系和安装方法参考NCL Downloads。 本文使用cuda版本是11.7,因此安装nccl的命令为: wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb sudo dpkg -i cuda-keyring_1.0-1_all.deb sudo apt update sudo apt install libnccl2=2.14.3-1+cuda11.7 libnccl-dev=2.14.3-1+cuda11.7 安装完成后可以查看: 图5 查看nccl 安装nvidia-fabricmanager。 nvidia-fabricmanager必须和nvidia driver版本保持一致。 version=515.105.01 main_version=$(echo $version | awk -F '.' '{print $1}') apt-get update apt-get -y install nvidia-fabricmanager-${main_version}=${version}-* 验证驱动安装结果:启动fabricmanager服务并查看状态是否为“RUNNING”。 nvidia-smi -pm 1 nvidia-smi systemctl enable nvidia-fabricmanager systemctl start nvidia-fabricmanager systemctl status nvidia-fabricmanager 安装nv-peer-memory。 git clone https://github.com/Mellanox/nv_peer_memory.git cd ./nv_peer_memory ./build_module.sh cd /tmp tar xzf /tmp/nvidia-peer-memory_1.3.orig.tar.gz cd nvidia-peer-memory-1.3 dpkg-buildpackage -us -uc dpkg -i ../nvidia-peer-memory-dkms_1.2-0_all.deb nv_peer_mem工作在linux内核态,安装完成后需要看是否加载到内核,通过执行“lsmod | grep peer”查看是否加载。 如果git clone拉不下来代码,可能需要先设置下git的配置: git config --global core.compression -1 export GIT_SSL_NO_VERIFY=1 git config --global http.sslVerify false git config --global http.postBuffer 10524288000 git config --global http.lowSpeedLimit 1000 git config --global http.lowSpeedTime 1800 如果安装完成后lsmod看不到nv-peer-memory,可能是由于ib驱动版本过低导致,此时需要升级ib驱动,升级命令: wget https://content.mellanox.com/ofed/MLNX_OFED-5.4-3.6.8.1/MLNX_OFED_LINUX-5.4-3.6.8.1-ubuntu20.04-x86_64.tgz tar -zxvf MLNX_OFED_LINUX-5.4-3.6.8.1-ubuntu20.04-x86_64.tgz cd MLNX_OFED_LINUX-5.4-3.6.8.1-ubuntu20.04-x86_64 apt-get install -y python3 gcc quilt build-essential bzip2 dh-python pkg-config dh-autoreconf python3-distutils debhelper make ./mlnxofedinstall --add-kernel-support 如果想安装其它更高版本的ib驱动,请参考Linux InfiniBand Drivers。比如要安装MLNX_OFED-5.8-2.0.3.0 (当前最新版本),则命令为: wget https://content.mellanox.com/ofed/MLNX_OFED-5.8-2.0.3.0/MLNX_OFED_LINUX-5.8-2.0.3.0-ubuntu20.04-x86_64.tgz tar -zxvf MLNX_OFED_LINUX-5.8-2.0.3.0-ubuntu20.04-x86_64.tgz cd MLNX_OFED_LINUX-5.8-2.0.3.0-ubuntu20.04-x86_64 apt-get install -y python3 gcc quilt build-essential bzip2 dh-python pkg-config dh-autoreconf python3-distutils debhelper make ./mlnxofedinstall --add-kernel-support 安装完nv_peer_mem, 如果想查看其状态可以输入如下指令: /etc/init.d/nv_peer_mem/ status 如果发现没有此文件,则可能安装的时候没有默认拷贝过来,需要拷贝即可: cp /tmp/nvidia-peer-memory-1.3/nv_peer_mem.conf /etc/infiniband/ cp /tmp/nvidia-peer-memory-1.3/debian/tmp/etc/init.d/nv_peer_mem /etc/init.d/ 设置环境变量。 MPI路径版本需要匹配,可以通过“ls /usr/mpi/gcc/”查看openmpi的具体版本。 # 加入到~/.bashrc export LD_LIBRARY_PATH=/usr/local/cuda/lib:usr/local/cuda/lib64:/usr/include/nccl.h:/usr/mpi/gcc/openmpi-4.1.2a1/lib:$LD_LIBRARY_PATH export PATH=$PATH:/usr/local/cuda/bin:/usr/mpi/gcc/openmpi-4.1.2a1/bin 安装编译nccl-test。 cd /root git clone https://github.com/NVIDIA/nccl-tests.git cd ./nccl-tests make MPI=1 MPI_HOME=/usr/mpi/gcc/openmpi-4.1.2a1 -j 8 编译时需要加上MPI=1的参数,否则无法进行多机之间的测试。 MPI路径版本需要匹配,可以通过“ls /usr/mpi/gcc/”查看openmpi的具体版本。 nccl-test测试。 单机测试: /root/nccl-tests/build/all_reduce_perf -b 8 -e 1024M -f 2 -g 8 多机测试(btl_tcp_if_include后面替换为主网卡名称): mpirun --allow-run-as-root --hostfile hostfile -mca btl_tcp_if_include eth0 -mca btl_openib_allow_ib true -x NCCL_DEBUG=INFO -x NCCL_IB_GID_INDEX=3 -x NCCL_IB_TC=128 -x NCCL_ALGO=RING -x NCCL_IB_HCA=^mlx5_bond_0 -x LD_LIBRARY_PATH /root/nccl-tests/build/all_reduce_perf -b 8 -e 11g -f 2 -g 8 hostfile格式: #主机私有IP 单节点进程数 192.168.20.1 slots=1 192.168.20.2 slots=1 NCCL环境变量说明: NCCL_IB_GID_INDEX=3 :数据包走交换机的队列4通道,这是RoCE协议标准。 NCCL_IB_TC=128 :使用RoCE v2协议,默认使用RoCE v1,但是v1在交换机上没有拥塞控制,可能会丢包,而且后续的交换机不会支持v1,会导致无法运行。 NCCL_ALGO=RING :nccl_test的总线bandwidth是在假定是Ring算法的情况下计算出来的。 计算公式是有假设的: 总线带宽 = 算法带宽 * 2 ( N-1 ) / N ,算法带宽 = 数据量 / 时间 但是这个计算公式的前提是用Ring算法,Tree算法的总线带宽不可以这么计算。 如果Tree算法算出来的总线带宽相当于是相对Ring算法的性能加速。算法计算总耗时减少了,所以用公式算出来的总线带宽也增加了。理论上Tree算法是比Ring算法更优的,但是Tree算法对网络的要求比Ring高,计算可能不太稳定。 Tree算法可以用更少的数据通信量完成all reduce计算,但用来测试性能不太合适。因此,会出现两节点实际带宽100,但测试出速度110,甚至130GB/s的情况。加这个参数以后,2节点和2节点以上情况的速度才会稳定一些。 测试时需要执行mpirun的节点到hostfile中的节点间有免密登录,设置SSH免密登录方法如下: 客户端生成公私钥。 执行如下命令,在本地客户端生成公私钥(一路回车默认即可)。 ssh-keygen 上面这个命令会在用户目录.ssh文件夹下创建“id_rsa.pub”(公钥)和“id_rsa”(私钥),可通过如下命令查看: cd ~/.ssh 上传公钥到服务器。 例如用户名为root,服务器地址为192.168.222.213,则将公钥上传至服务器的命令如下: ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.222.213 通过如下命令可以看到客户端写入到服务器的id_rsa.pub (公钥)内容: cd ~/.ssh vim authorized_keys 测试免密登录。 客户端通过ssh连接远程服务器,即可免密登录。 ssh root@192.168.222.213
  • 场景描述 本文旨在指导如何在GPU裸金属服务器上,安装NVIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同,您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件安装步骤,您可针对需要安装的软件查看对应的内容: 安装NVIDIA驱动 安装CUDA驱动 安装Docker 安装nvidia-fabricmanager 以下提供常见的配置场景,您可查看相关文档方便您快速配置: GP Vnt1裸金属服务器EulerOS 2.9安装NVIDIA 515+CUDA 11.7 GP Vnt1裸金属服务器Ubuntu 18.04安装NVIDIA 470+CUDA 11.4 GP Vnt1裸金属服务器Ubuntu18.04安装NVIDIA 515+CUDA 11.7 GP Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 515+CUDA 11.7
  • 安装Docker 部分Vnt1裸金属服务器的预置镜像中未安装Docker,您可参考以下步骤进行安装。 安装Docker。 curl https://get.docker.com | sh && sudo systemctl --now enable docker 安装NIVDIA容器插件。 distribution=$(. /etc/os-release;echo $ID$VERSION_ID) && curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list apt-get update apt-get install -y nvidia-container-toolkit nvidia-ctk runtime configure --runtime=docker systemctl restart docker 验证Docker模式环境是否安装成功。 基于PyTorch2.0镜像验证(本案例中镜像较大,拉取时间可能较长)。 docker run -ti --runtime=nvidia --gpus all pytorch/pytorch:2.0.0-cuda11.7-cudnn8-devel bash 图3 成功拉取镜像
  • 安装nvidia-fabricmanager Ant系列GPU支持NvLink & NvSwitch,若您使用多GPU卡的机型,需额外安装与驱动版本对应的nvidia-fabricmanager服务使GPU卡间能够互联,否则可能无法正常使用GPU实例。 nvidia-fabricmanager必须和nvidia driver版本保持一致。 以安装515.105.01版本为例。 version=515.105.01 main_version=$(echo $version | awk -F '.' '{print $1}') apt-get update apt-get -y install nvidia-fabricmanager-${main_version}=${version}-* 验证驱动安装结果:启动fabricmanager服务并查看状态是否为“RUNNING”。 nvidia-smi -pm 1 nvidia-smi systemctl enable nvidia-fabricmanager systemctl start nvidia-fabricmanager systemctl status nvidia-fabricmanager
  • 安装NVIDIA驱动 打开NVIDIA官方网站。 以Ant8规格为例,根据Ant8的详细信息和您所需的cuda版本选择驱动。 图1 驱动选择 选择后会自动出现Driver版本并下载,或者直接。 wget https://cn.download.nvidia.com/tesla/470.182.03/NVIDIA-Linux-x86_64-470.182.03.run 添加权限。 chmod +x NVIDIA-Linux-x86_64-470.182.03.run 运行安装文件。 ./NVIDIA-Linux-x86_64-470.182.03.run 至此NVIDIA-DRIVER驱动安装完成。
  • 使用 对象存储服务 OBS作为存储 若使用OBS服务作为存储方案,推荐使用“并行文件系统+obsutil”的方式,并行文件系统是OBS服务提供的一种经过优化的高性能文件语义系统,提供毫秒级别访问时延,TB/s级别带宽和百万级别的IOPS。obsutil是一款用于访问管理华为云对象存储服务(Object Storage Service,OBS)的命令行工具,您可以使用该工具对OBS进行常用的配置管理操作,如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。对于熟悉命令行程序的用户,obsutil能在执行批量处理、自动化任务场景能为您带来更优体验。 在OBS服务控制台上创建并行文件系统,具体步骤请参考创建并行文件系统。 针对您的操作系统,下载对应版本的obsutil至弹性裸金属服务器,并完成安装,具体步骤请参考下载和安装obsutil。 使用obsutil之前,您需要配置obsutil与OBS的对接信息,包括OBS终端节点地址(Endpoint)和访问密钥(AK和SK)。获得OBS的认证后,才能使用obsutil执行OBS桶和对象的相关操作,具体步骤请参考初始化配置。 配置完成后,您可以通过命令行的方式在弹性裸金属服务器中对OBS的文件进行上传下载等操作,关于命令行介绍请参考命令行结构。
  • 使用弹性文件服务SFS作为存储 若使用SFS服务作为存储方案,推荐使用SFS Turbo文件系统。SFS Turbo提供按需扩展的高性能文件存储,还具备高可靠和高可用的特点,支持根据业务需要弹性扩容,且性能随容量增加而提升,可广泛应用于多种业务场景。 在SFS服务控制台上创建文件系统,具体步骤请参考创建SFS Turbo文件系统。同一区域不同可用区之间文件系统与云服务器互通,因此保证SFS Turbo与Server服务器在同一区域即可。 当创建文件系统后,您需要使用弹性裸金属服务器来挂载该文件系统,具体步骤请参考挂载NFS协议类型文件系统到云服务器(Linux)。 为避免已挂载文件系统的云服务器重启后,挂载信息丢失,您可以在云服务器设置重启时进行自动挂载,具体步骤请参考服务器重启后自动挂载指南。
  • GPU Ant1裸金属服务器支持的镜像详情 镜像名称:Ubuntu-20.04-x86-for-Ant1-BareMetal-with-RoCE-and-GP-515-CUDA-11.7-AIGC(仅限北京四和乌兰察布一) 表10 镜像详情 软件类型 版本详情 操作系统 Ubuntu 20.04 server 64bit 架构类型 x86 RoCE路由配置 不支持自动配置,需创建后手动配置。 镜像名称:Ubuntu-20.04-x86-for-Ant1-BareMetal-with-RoCE-and-NVIDIA-525-CUDA-12.0-AIGC(仅限乌兰察布一) 表11 镜像详情 软件类型 版本详情 操作系统 Ubuntu 20.04 server 64bit 架构类型 x86 RoCE路由配置 不支持自动配置,需创建后手动配置。
  • GP Vnt1裸金属服务器支持的镜像详情 Vnt1规格在北京四、北京一和上海一虽然规格相同,但是产品的配置、发布时间都存在很大差异,因此镜像不能共用。 镜像名称:Ubuntu-18.04-for-BareMetal-Vnt1-p3-with-NVIDIA-470-CUDA-11.4-Uniagent(仅限于北京一、北京四、广州) 表6 镜像详情 软件类型 版本详情 操作系统 Ubuntu 18.04 server 64bit 内核版本 4.15.0-45-generic 架构类型 x86 驱动版本 470.182.03 cuda 11.4 container-toolkit 1.15.0.-1 mlnx-ofed-linux 5.7-1.0.2.1-ubuntu18.04-x86_64 libnccl2 2.10.3-1 nccl-test v2.13.9 docker 24.0.2 镜像名称:Ubuntu-18.04-for-BareMetal-Vnt1-p6-with-NVIDIA-470-CUDA-11.4-Uniagent(仅限于上海一) 表7 镜像详情 软件类型 版本详情 操作系统 Ubuntu 18.04 server 64bit 内核版本 4.15.0-45-generic 架构类型 x86 驱动版本 470.182.03 cuda 11.4 container-toolkit 1.15.0.-1 mlnx-ofed-linux 5.7-1.0.2.1-ubuntu18.04-x86_64 libnccl2 2.10.3-1 nccl-test v2.13.9 docker 24.0.2 镜像名称:Euler2.9-X86-for-Vnt1-BareMetal(仅限于北京四和上海一) 表8 镜像详情 软件类型 版本详情 操作系统 EulerOS 2.9 64bit 架构类型 x86 镜像名称:CentOS-7.9-64bit-for-BareMetal-Vnt1-with-NVIDIA-515-CUDA-11.7-Uniagent(仅限于北京一、北京四、广州) 表9 镜像详情 软件类型 版本详情 操作系统 CentOS 7.9 64bit 架构类型 x86
  • GP Ant8裸金属服务器支持的镜像详情 镜像名称:Ubuntu-20.04-for-Ant8-with-RoCE-and-NVIDIA-525-CUDA-12.0-Uniagent 表4 镜像详情 软件类型 版本详情 操作系统 Ubuntu 20.04 server 64bit 内核版本 5.4.0-144-generic 架构类型 x86 驱动版本 525.105.17 cuda 12.0 container-toolkit 1.13.3-1 fabricmanager 525.105.17 mlnx-ofed-linux 5.8-2.0.3.1-ubuntu20.04-x86_64 peer-memory-dkms 1.2-0 libnccl2 2.18.1 nccl-test v.2.13.6 docker 20.10.23 RoCE路由配置 支持 镜像名称:Ubuntu-20.04-for-Ant8-with-RoCE-and-NVIDIA-515-CUDA-11.7-Uniagent(乌兰察布一、北京四、乌兰察布-汽车一) 表5 镜像详情 软件类型 版本详情 操作系统 Ubuntu 20.04 server 64bit 内核版本 5.4.0-144-generic 架构类型 x86 驱动版本 515.105.01 cuda 11.7 container-toolkit 1.13.3-1 fabricmanager 515.105.01-1 mlnx-ofed-linux 5.8-2.0.3.1-ubuntu20.04-x86_64 peer-memory-dkms 1.2-0 libnccl2 2.14.3 nccl-test v.2.13.6 docker 20.10.23 RoCE路由配置 支持
  • NPU Snt9B裸金属服务器支持的镜像详情 镜像名称:EulerOS2.10-Arm-64bit-for-Snt9B-BareMetal-with-23.0.6-7.1.0.9.220-CANN7.0.1.5 表2 镜像详情 软件类型 版本详情 操作系统 EulerOS 2.10 内核版本 Linux 4.19.90-vhulk2211.3.0.h1543.eulerosv2r10.aarch64 架构类型 aarch64 固件版本 7.1.0.9.220 npu-driver 23.0.6 Ascend-cann-toolkit 7.0.1.5 cann-kernels 7.0.1.5 Ascend-mindx-toolbox 5.0.1.1 Docker 24.0.7 Ascend-docker-runtime 5.0.1.1 MindSpore Lite 2.1.0-cp37-cp37m Mpich 3.2.1 镜像名称:HCE2.0-Arm-64bit-for-Snt9B-BareMetal-with-23.0.6-7.1.0.9.220-CANN7.1.0.5 表3 镜像详情 软件类型 版本详情 操作系统 HCE2.0 内核版本 Linux 5.10.0-60.18.0.50.r865_35.hce2.aarch64 架构类型 aarch64 固件版本 7.1.0.9.220 npu-driver 23.0.6 Ascend-cann-toolkit 7.0.1.5 cann-kernels 7.0.1.5 Ascend-mindx-toolbox 5.0.1.1 Docker 18.09 Ascend-docker-runtime 5.0.1.1 MindSpore Lite 2.1.0-cp37-cp37m Mpich 4.1.3
  • Lite Server资源配置流程 在开通Lite Server资源后,需要完成相关配置才能使用,配置流程如下图所示。 图1 Lite Server资源配置流程图 表1 Server资源配置流程 配置顺序 配置任务 场景说明 1 配置Lite Server网络 Server资源开通后,需要进行网络配置,才可使其与Internet通信。在后续配置存储和软件环境时需要Server服务器能够访问网络,因此需要先完成网络配置。 2 配置Lite Server存储 Server资源需要挂载数据盘用于存储数据文件,当前支持SFS、OBS、EVS三种 云存储 服务,提供了多种场景下的存储解决方案。 3 配置Lite Server软件环境 不同镜像中预安装的软件不同,您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。当Server服务器中预装的软件无法满足业务需求时,您可在Server服务器中配置所需要的软件环境。 父主题: Lite Server资源配置
  • 查看Lite Server服务器详情 在您创建了Lite Server服务器后,可以通过管理控制台查看和管理您的Lite Server服务器。本节介绍如何查看Lite Server服务器的详细信息,包括名称/ID、磁盘、网卡、规格、镜像等信息。 表1 详情页参数说明 参数名称 说明 名称 Lite Server服务器的名称。 规格 Lite Server服务器的规格。 ID Lite Server服务器的ID,可用于在费用中心查询。 计费模式 Lite Server服务器当前的计费模式。 状态 Lite Server服务器的运行状态。 虚拟私有云 Lite Server服务器创建时绑定的虚拟私有云,单击链接可跳转到虚拟私有云详情页。 裸金属服务器 Lite Server服务器为一台裸金属服务器,单击链接可跳转至对应弹性裸金属服务器的详情页。 镜像 Lite Server服务器的镜像。 创建时间 Lite Server服务器的创建时间。 更新时间 Lite Server服务器的更新时间。 所属订单 Lite Server服务器对应的订单,单击链接可跳转至费用中心。 图1 Lite Server服务器详情 父主题: Lite Server资源管理
  • 建议及示例 查询示例中两表join场景,建议将大表置于join左侧,小表置于join右侧,可借助初筛的能力,进行小表在大表端的加密过滤,提升性能。 建议示例: Select sum(l_tax+ s_acctbal) from league_creator.lineitem_1000w b join league_partner1.supplier_1w a on a.s_suppkey = b.l_suppkey 不建议示例: Select sum(l_tax+ s_acctbal) from league_partner1.supplier_1w a join league_creator.lineitem_1000w b on a.s_suppkey = b.l_suppkey
  • 包年/包月资源 对于包年/包月计费模式的资源,例如包年/包月的CloudTable集群,用户在购买时会一次性付费,服务将在到期后自动停止使用。 如果在计费周期内不再使用包年/包月资源,您可以执行退订操作,系统将根据资源是否属于五天无理由退订、是否使用代金券和折扣券等条件返还一定金额到您的账户。详细的退订规则请参见云服务退订规则概览。 如果您已开启“自动续费”功能,为避免继续产生费用,请在自动续费扣款日(默认为到期前7日)之前关闭自动续费。
  • 计费模式概述 表格存储服务 器(CloudTable)当前支持按需计费和包年/包月以满足不同场景下的用户需求。 按需计费:一种后付费模式,即先使用再付费,按照云服务器实际使用时长计费,秒级计费,按小时结算。按需计费模式允许您根据实际业务需求灵活地调整资源使用,无需提前预置资源,从而降低预置过多或不足的风险。一般适用于电商抢购等设备需求量瞬间大幅波动的场景。 包年/包月:根据集群购买时长,一次性支付集群费用。 表1 计费模式 计费模式 包年/包月 按需计费 付费方式 预付费。 按照订单的购买周期结算。 后付费 按照CloudTable实际使用时长计费。 计费周期 按订单的购买周期计费。 秒级计费,按小时结算。 适用计费项 HBase:计算规格、存储规格、节点数量。 Doris:计算规格、存储规格、节点数量。 ClickHouse:计算规格、存储规格、节点数量。 HBase:计算规格、存储规格、节点数量。 Doris:计算规格、存储规格、节点数量。 ClickHouse:计算规格、存储规格、节点数量。 变更计费模式 暂不支持包年/包月转按需。 支持按需变更为包年/包月模式。 变更规格 HBase支持计算规格、存储规格、节点数量变更。 Doris支持计算规格、存储规格、节点数量变更。 ClickHouse支持节点数量变更。 支持变更实例规格,变更规格后影响集群计费。 HBase支持计算规格、存储规格、节点数量变更。 Doris支持计算规格、存储规格、节点数量变更。 ClickHouse支持算规格、存储规格、节点数量变更。 适用场景 适用于可预估资源使用周期的场景,价格比按需计费模式更优惠。对于长期使用者,推荐该方式。 适用于计算资源需求波动的场景,可以随时开通,随时删除。 父主题: 计费模式
  • 华为云云商店能给伙伴什么 华为云云商店提供丰富的扶持资源,包括服务体系、营销销售支持等。 完善的合作伙伴服务体系 华为云云商店完善了包括入驻前、入驻中、入驻后、交易、结算、售后、运营等一套多环节的标准化流程,服务云商店合作伙伴。 运营和销售支持 华为云云商店为合作伙伴提供一对一的运营支持,帮助伙伴分析业务痛点,助力伙伴高效解决问题。合作伙伴可以获得华为品牌影响力、丰富的海内外销售和行业资源等助力,强势助力合作伙伴的产品交易量提升。
  • 操作步骤 接口开发并调测成功后,点击“配置”。 商家根据需求,可以选择“接入类型”或“按商品”的场景进行通知。 下面以“接入类型”为例: ① 勾选客户购买需要订单通知的商品类型。 ② 点击确认后,即生效,后续这类接入类型的所有商品产生的订单都会通知。 1.订单通知可按照接入类型或按照商品维度进行通知,两种配置方式可单独选择或组合选择,如组合选择后有交集的商品产生订单后仅发送一次通知。 2.订单通知节点:以选中的通知方式下的商品范围被新购、续费、变更、退订生成订单后进行接口通知。 3.同一个接入类型或商品仅支持关联一个生产地址,如需更改生产地址请先删除后再在对应生产地址下配置接入类型或商品。
  • 响应消息 响应参数说明请参见下表: 参数 是否必选 类型 取值范围 参数说明 resultCode M String 6 调用结果码。 000000:表示资源同步开通 000004:表示资源异步开通 具体请参见1.9 调用结果码说明 说明:如果创建实例耗时较长,建议返回0000004,云商店后续会通过查询实例信息接口查询实例开通结果 resultMsg O String 255 调用结果描述。 instanceId M String 64 云商店业务ID。 响应消息示例: { "resultCode":"000000", "resultMsg":"success" , "instanceId":"03pf80c2bae96vc49b80b917bea776d7" }
  • 请求消息 请求参数说明请参见下表。云商店会结合商家创建上架的商品售卖模式来对应请求,商家也需要根据请求的信息来对应执行生产。 请求方式:POST Body参数 参数 是否必选 参数类型 最大字符长度 说明 activity M String 20 接口请求标识,用于区分接口请求场景。 新购场景取值:newInstance orderId M String 64 云商店订单ID。 orderLineId M String 64 云商店订单行ID。 businessId M String 64 云商店业务ID。 每一次请求,businessId皆不一致。 testFlag O String 2 是否为调试请求。 1:调试请求 0:非调试请求 默认取值为“0”。 请求消息示例: curl -X POST 'https://www.isvwebsite.com/saasproduce?signature=11C4CD6279191DE931DEF5C51531DFFA9D37969F4E356B8A3A6D8DE4FB357A48×tamp=1680508066618&nonce=50D83FDECAED6CCD8EF597F2A577950527928BA287D04E6036E92B2806FD17DA' -H 'Accept:application/json' -H 'Content-Type:application/json;charset=utf8' -d'{"activity":"newInstance","businessId":"87b94795-0603-4e24-8ae5-69420d60e3c8","orderId":" CS 2211181819B4LVS","orderLineId":"CS2211181819B4LVS-000001","testFlag":"0"}'
  • 接口说明 客户购买商品并付款成功,云商店将调用本接口通知商家创建实例 商家需要返回此订单的唯一ID(instanceId)。建议此ID直接使用该订单首次请求时云商店传入的businessId,以确保instanceId的唯一性。 在正常购买场景中,请不要阻塞此接口,如果耗时较长,建议异步创建实例,可以先生成instanceId,然后立即返回。云商店后续会通过查询实例信息接口查询实例开通结果。 如涉及按需、按需套餐包商品,需要对接按需使用量推送(新)接口。 获取订单信息,请参考查询订单接口。 云商店服务有可能重发请求,针对同一订单号(orderId)和订单行(orderLineId),商家的服务器应当返回相同的instanceId,不应该创建新的SaaS实例,返回之前成功创建的实例信息即可。 按需交易场景,需要基于订单号(orderId)和产品标识(productId)构建幂等。 创建实例流程如下图所示:
  • 错误码 表2 错误码 http状态码 resultCode resultMsg 描述 200 MKT.0000 Success. 请求成功 500 MKT.0999 System internal error. 其它服务内部错误 500 MKT.0100 Failure of input parameter 输入参数校验失败 参数范围超限,非法值或格式错误 400 MKT.0101 Invalid parameter 参数无效 输入非接口定义的参数,多参数或少必选参数 400 MKT.0199 Request parameter error 请求参数错误 其它参数错误 401 MKT.0150 Illegal operation 通常是进行了不被授权的操作,例如instanceId对应的产品不是AK/SK对应的商家发布的 401 MKT.0151 No authority 无API访问权限 token非商家角色 401 MKT.0154 Illegal token 鉴权失败 token无效 406 MKT. 0250 Access frequency overlimit 访问频率超限 500 MKT.9001 Instance ID not found. 实例ID不存在(商品续费、过期、资源释放接口可能返回) 500 MKT.9002 Invalid usage enties. 计量实体无效 500 MKT.9003 Usage records extends size limit. 计量记录数超出限制(100条) 500 MKT.9004 Record beginTime extends Limit. 计量记录的起始时间超出有效期(当前时间21天以内) 其中,仅在resultCode为MKT.0100、MKT.0150、MKT.0250、MKT.9001、MKT.9002、MKT.9004、MKT.9005时,失败响应中包含extra_info字段。失败响应中resultMsg除字段描述,还包含响应失败详情。您可以结合失败详情和extra_info内容定位并解决问题。 成功响应示例 HTTP/1.1 200 OK Content-Type: application/json;charset=UTF-8 Content-Length: length Date: response time { "resultCode": "MKT.0000", "resultMsg": "Success", "orderInfo": { "orderId": "CS2207261447AUY4H", "orderType": "NEW", "createTime": "20220726064736", "orderLine": [ { "orderLineId": "CS2207261447AUY4H-000001", "chargingMode": "PERIOD", "periodType": "year", "periodNumber": 1, "expireTime": "20230726155959", "productInfo": [ { "productId": "OFFI758576253042421760", "skuCode": "da9b4d34-ee8a-4355-a823-13e034e49986", "linearValue": 10, "productName": "SaaS测试商品,测试规格,基础版,包周期" } ], "extendParams": [] } ], "buyerInfo": { "mobilePhone": "18699999999", "email": 123@test.com, "customerId": "688055390f3049f283fe9f1aa90f7ds3", "customerName": "hw1235sd3123" } } } 失败响应示例 HTTP/1.1 401 UnauthorizedContent-Type: application/json;charset=UTF-8Content-Length: lengthDate: response time { "resultCode": "CBC.0150", "resultMsg": "Illegal operation. param[isvId] and param[instanceId] does not match." }
  • 操作步骤 登录华为云云商店主页。 选择商品。 在页面顶端搜索栏搜索您需要的商品。 选择云商店商品分类,进入分类页面通过筛选条件选择您需要的商品。 进入推荐应用或推荐商品模块选择您需要的商品。 单击具体商品名称,进入商品详情页面。 查看商品信息、设置服务选型后,单击“立即购买”。 镜像类应用 若购买页面无可用的虚拟私有云,请单击“创建虚拟私有云”,按照界面提示创建虚拟私有云后再进行购买。 镜像类应用包含镜像费用和云服务器费用。 请记住在订单确认页面设置的云主机登录账号和密码。 开通了企业项目功能的企业账号在购买云商店镜像类商品时,可下拉并选择对应的企业项目。如未开通企业项目功能,则不显示该参数。 SaaS类应用 若购买页面显示“授权将当前账号下的联系方式(xxx)用于创建应用管理账号,便于商品的开通与使用”,则必须选择才能购买。“xxx”为当前账号的手机号码、邮箱或 IAM 用户名。 若需购买按需套餐包,则必须先开通按需服务。 核对订单详情,勾选“协议及授权”,单击“去支付”。 如该商品有优惠折扣,支付页面会显示【折扣】栏,下拉选择对应的折扣后再进行支付。 通用商品、联营商品、华为商品在订单页面需勾选的用户协议不同。 图1 通用商品订单页面 图2 联营商品订单页面 图3 华为商品订单页面 确认付款并支付订单,付款成功即完成商品购买流程。 用户可以在云商店快速购买人工服务、硬件、SaaS或License类商品。支付成功后,需要进入“服务监管”页面提交需求,并及时跟踪订单服务的进度。 服务监管操作指导,请参见人工服务类商品服务监管、SaaS类商品服务监管、License类商品服务监管、硬件类商品服务监管。
  • 操作步骤 进入华为云云商店首页,点击页面上的“免费试用”,进入 云商店试用中心 。 在云商店试用中心选择需要试用的商品,点击商品卡片进入该商品详情页。 点击“全部试用商品”进入免费试用商品搜索页; 在该页面可以根据商品分类、交付方式等条件筛选并选择需要的商品。 在商品详情页查看商品信息,“购买方式”选择使用版本后,单击“立即购买”。 勾选协议及授权后,点击“立即开通”,进入付款页面。 确认付款金额为0元,点击“确认付款”。 付款成功即完成试用商品购买,“云商店订单支付成功通知”将以短信或邮件的形式发送至用户账号绑定的联系方式。
  • 模板配置开通流程 在控制台页面,勾选相关确认协议后,单击“模板配置开通”按钮,进入立即创建资源栈页面; 在部署页面,配置资源信息; 核对模板信息后,单击“下一步”; 在配置页面设置相关云服务密码,也可根据实际需求更改相关配置,配置完成后,单击“下一步”,页面弹窗提示“开启加密”,点击“确定”进入资源栈设置页面; 在“资源栈设置”页面配置IAM委托,设置完成后,单击“下一步”进入配置确认页面; 如果是首次创建委托,请参考如何创建委托。 如不选择委托,可直接点击“下一步”进行确认,系统将默认采用当前登录用户的权限进行部署。 在“配置确认”页面,检查已经配置的参数,确认无误后单击“创建执行计划”,页面弹窗提示确认“创建执行计划”,点击“确定”进入执行计划页面; 在执行计划页面,确保账户余额充足后,单击“部署”,开始进行资源部署。 点击“查看费用明细”,可查询资源费用明细。如选择的是包年或包月的计费模式,资源创建成功后自动扣费(请确保账号余额充足,否则资源将创建失败)。 部署成功后,查看输出界面,若是网站页面开发软件包,将生成网站访问地址。 部署成功后,若服务器不再需要访问外网,可在资源服务平台关闭绑定的eip。 如部署失败,请联系商家。 部署成功后,请根据商家提供的使用指南开始使用产品。 用户根据商家提供的使用指南开始使用。
  • 快捷开通流程 点击购买后,进入控制台; 如需选择自定义开通,可在该页面点击“自定义开通”切换至自定义开通页面。 首次使用云商店快捷开通方式的情况下,页面会先弹框提示您需要将创建云资源的权限委托给云商店,点击“确定”即可。 在控制台页面完成以下内容的配置: 勾选对应的ECS实例,完成ECS实例配置; 选择网络和安全组配置,完成网络配置; 安全组:可以下拉选择商家推荐的安全组,也可以点击“新建安全组”创建安全组。 填写登陆凭证,即ECS登陆密码; 勾选“协议及授权”。 云资源配置费用及镜像费用可在页面底部栏查看。 如选择的是包年或包月的计费模式,资源创建成功后自动扣费(请确保账号余额充足,否则资源将创建失败)。 单击“启动部署”,即可完成镜像类商品的部署。此时页面会跳转到ECS管理台,可以查看创建成功的ECS实例。
  • 操作步骤 进入云商店买家中心,单击左侧导航栏“说明函”菜单; 选择相应订单的发票申请ID,并单击操作列“提交申请”按钮; 如列表没有该订单数据,请确认发票电子流为已开票状态。 说明函申请提交后,用印盖章时间约5分钟左右完成。 下载已完成盖章的电子说明函。 支持已开具发票的订单开具说明函。 说明函本身不具备法律效应,仅作为用户在云商店平台上进行商品购买的证明。 说明函呈现的开票金额与用户购买商品后开具发票的金额一致。 说明函保留有效期为6个月,超过6个月后需重新提交申请。
共100000条