-
使用GPU A系列裸金属服务器有哪些注意事项? - AI开发平台ModelArts
使用GPU A系列裸金属服务器有哪些注意事项? 使用华为云A系列裸金属服务器时有如下注意事项: nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致,可参考GP Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 515+CUDA
-
部署本地服务进行调试 - AI开发平台ModelArts
Notebook部署本地服务。 本地服务Predictor和在线服务Predictor说明 部署本地服务Predictor,即将模型文件部署在本地,其环境规格取决于本地;例如在一个modelarts.vm.cpu.2u的Notebook中,部署本地Predictor,其运行环境就是cpu.2u。 部署在
-
手动续费/自动续费包周期 - AI开发平台ModelArts
弹性裸金属”打开DevServer列表页面。 图4 DevServer列表页面 此时如果显示需要配置委托,请联系您的账号管理员进行ModelArts委托权限配置。 复制需要续费的服务器资源的ID。 图5 复制服务器资源的ID 在顶部菜单栏,单击“费用”,进入费用中心。 图6 费用 单击“订单管理 >
-
使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts
使用Gallery CLI配置工具下载文件 在服务器(ModelArts Lite云服务器或者是本地Windows/Linux等服务器)上登录Gallery CLI配置工具后,通过命令“gallery-cli download”可以从AI Gallery仓库下载资源。 命令说明 登录Gallery
-
GPU A系列裸金属服务器无法获取显卡问题解决方法 - AI开发平台ModelArts
GPU A系列裸金属服务器无法获取显卡问题解决方法 问题现象 在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下: > torch.cuda.is_available() /usr/local/lib/python3.8/dist-package
-
NPU Snt9B裸金属服务器docker网络配置方案 - AI开发平台ModelArts
例如,在文件增加下面这一行,即为将容器的22端口和主机18888端口相映射。 重启sshd服务,执行如下命令。 /usr/sbin/sshd 此时,有两种方式实现免密登录。 (推荐)方式一:重新制作docker镜像(推荐) 在一个容器内,参考NPU Snt9B裸金属服务器多机免密互通解决
-
NVIDIA和CUDA驱动安装指南 - AI开发平台ModelArts
System、Architecture、Distribution、Version、Installer Type后,会生成对应的安装命令,复制安装命令并运行即可。 图2 选择版本 对应所得安装命令为: wget https://developer.download.nvidia.com/comput
-
使用Gallery CLI配置工具上传文件 - AI开发平台ModelArts
获取待上传的文件名 获取待上传的文件在服务器的绝对路径。 上传单个文件 在服务器执行如下命令,可以将服务器上的文件上传到AI Gallery仓库里面。 gallery-cli upload {repo_id} {文件名} 如下所示,表示将服务器上的文件“D:\workplace\models\llama-7b\config
-
GPU A系列裸金属服务器RoCE带宽不足问题解决方法 - AI开发平台ModelArts
查看该软件是否已经加载至内核。 lsmod | grep peer 若没有则需要重新加载至内核,执行如下命令进行加载: /etc/init.d/nv_peer_mem start 如果执行失败,可能是未加载nv_peer_mem.conf至/etc/infiniband/中或nv_peer_mem不在/etc/init
-
通过 patch 操作对服务进行更新 - AI开发平台ModelArts
响应Body参数 参数 参数类型 描述 update_time String 本次更新时间,仅触发服务配置升级时会返回,比如修改config参数,可根据此时间从服务更新记录中过滤出此次的更新结果;修改描述或启停服务不会返回此参数。 resource_ids String 更新的资源ID 状态码:
-
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts
本 (2)执行nvidia-smi失败,提示Failed to initialize NVML: Driver/library version mismatch 处理方法 执行命令:lsmod | grep nvidia,查看内核中是否残留旧版nvidia,显示如下: nvidia_uvm
-
NPU Snt9B裸金属服务器多机免密互通解决方案 - AI开发平台ModelArts
需要在server1上生成私钥和公钥,执行如下命令: ssh-keygen ssh-keygen默认使用RSA算法,长度为2048位,执行完后会在用户目录下的.ssh文件夹创建rsa密钥类型的一个公钥和一个私钥,如下图。 图3 .ssh文件夹 传输公钥。 执行如下命令,将serv
-
NPU Snt9B裸金属服务器环境配置 - AI开发平台ModelArts
NPU Snt9B裸金属服务器环境配置 场景描述 物理机环境配置 容器化个人调测环境搭建 父主题: 环境配置
-
如何在AOM上查看ModelArts所有监控指标? - AI开发平台ModelArts
止)。 device_id 昇腾系列AI处理器的Physical ID。 device_type 昇腾系列AI处理器类型。 gpu_uuid 节点上GPU的UUID。 gpu_index 节点上GPU的索引。 gpu_type 节点上GPU的型号。 device_name inf
-
华为云BMS GO SDK和Python脚本实现裸金属服务器的操作系统切换 - AI开发平台ModelArts
35bd-4e1c-ba08-a3a686bc5097") 裸金属服务器操作系统切换状态说明 切换中, 服务器状态为“切换操作系统中”。 图1 切换中服务器状态 切换后,服务器状态为“运行中”。 图2 切换后服务器状态 父主题: FAQ
-
查看CPU - AI开发平台ModelArts
本文主要介绍如何Ubuntu系统下查看物理CPU、CPU核心数、逻辑CPU。 物理CPU:插在裸金属服务器上的真实的CPU硬件,一般一台裸金属服务器都会配置2块及以上的物理CPU。 CPU核心数:随着CPU技术的发展,现在的每一块物理CPU都是多核的CPU处理器,多核处理器其中的核就
-
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts
x系统上安装NVIDIA显卡驱动后,需要通过“nvidia-modprobe”命令来加载相应的内核模块,以便让显卡驱动正常工作。 通常情况下,在安装NVIDIA驱动时,会自动执行“nvidia-modprobe”命令,将必要的内核模块加载到系统中。但有时候也可能需要手动执行该命令
-
安装VS Code软件 - AI开发平台ModelArts
com/updates/v1_85 图1 VS Code的下载位置 VS Code版本要求: 建议用户使用VS Code 1.85.2版本或者最新版本进行远程连接。 VS Code安装指导如下: 图2 Windows系统下VS Code安装指导 Linux系统下,执行命令sudo dpkg -i
-
物理机环境配置 - AI开发平台ModelArts
通常Snt9b出厂机器有预装固件驱动,因此本案例中是“覆盖安装场景”,注意: 如果新装的固件驱动比环境上已有的版本低,只要npu-smi工具可用,也是直接装新软件包即可,不用先卸载环境上已有的版本。 如果固件驱动安装失败,可先根据报错信息在开发者社区搜索解决方案。 安装命令如下: 安
-
NPU Snt9裸金属服务器支持的镜像详情 - AI开发平台ModelArts
NPU Snt9裸金属服务器支持的镜像详情 镜像:EulerOS纯净版 镜像名称:ModelArts-Euler2.8_Aarch64_Snt9_C78 表1 镜像详情 软件类型 版本详情 操作系统 EulerOS 2.0 (SP8) 内核版本 4.19.36-vhulk1907