-
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 问题现象 创建出3台GPU裸金属服务器,使用A节点制作镜像,用于在CCE纳管裸金属服务器时,使用该镜像,但是纳管后发现服务器A纳管失败,剩下两台服务器纳管成功。 原因分析 在CCE纳管过程中,需要通过cloudinit
-
NPU Snt9B裸金属服务器多机免密互通解决方案 - AI开发平台ModelArts
该问题是由于docker容器sshd服务密钥缺失、sshd守护进程无法加载SSH主机密钥导致。在容器的/etc/ssh目录缺少ssh_host_rsa_key、ssh_host_ecdsa_key、ssh_host_ed25519_key等文件。 按照以下步骤执行,即可成功配置并启动sshd服务。 生成相关ssh
-
GPU A系列裸金属服务器无法获取显卡问题解决方法 - AI开发平台ModelArts
GPU A系列裸金属服务器无法获取显卡问题解决方法 问题现象 在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下: > torch.cuda.is_available() /usr/local/lib/python3.8/dist-package
-
GPU A系列裸金属服务器RoCE带宽不足问题解决方法 - AI开发平台ModelArts
GPU A系列裸金属服务器RoCE带宽不足问题解决方法 问题现象 GP Ant8支持RoCE网卡, Ubuntu20.04场景,在进行nccl-tests时,总线带宽理论峰值可达90GB/s,但实际测试下来的结果只有35GB/s。 原因分析 “nv_peer_mem”是一个Lin
-
昇腾云服务6.3.T041版本说明 - AI开发平台ModelArts
昇腾云服务6.3.T041版本说明 昇腾云服务6.3.T041版本发布支持的软件包和能力如下。 发布包 软件包特性说明 镜像配套说明 对应操作指导 昇腾云模型代码 包名:AscendCloud-3rdLLM-6.3.T041-20240424144057.zip 包含大语言模型,具体如下:
-
昇腾云服务6.3.T051版本说明 - AI开发平台ModelArts
昇腾云服务6.3.T051版本说明 昇腾云服务6.3.T051版本发布支持的软件包和能力说明如下,软件包获取路径:Support网站。 此版本仅支持部分客户的beam-search、AWQ量化和SmoothQuant量化特性使用。 发布包 软件包特性说明 配套说明 备注 昇腾云模型代码
-
昇腾云服务6.3.T061版本说明 - AI开发平台ModelArts
昇腾云服务6.3.T061版本说明 本文档主要介绍昇腾云服务6.3.T061版本配套的镜像地址、软件包获取方式和支持的特性能力。 配套的基础镜像 镜像地址 新增主要特性 获取方式 配套关系 PyTorch: 西南-贵阳一 swr.cn-southwest-2.myhuaweicloud
-
测试用户权限 - AI开发平台ModelArts
S的操作权限。 验证ECS权限。 在左上角的服务列表中,选择ECS服务,进入ECS管理控制台。 在ECS管理控制台,单击右上角的“购买弹性云服务器”,如果能正常打开页面,表示当前用户具备ECS的操作权限。 验证VPC权限。 在左上角的服务列表中,选择VPC服务,进入VPC管理控制台。
-
推理服务访问公网 - AI开发平台ModelArts
推理服务访问公网 本章节提供了推理服务访问公网的方法。 应用场景 推理服务访问公网地址的场景,如: 输入图片,先进行公网OCR服务调用,然后进行NLP处理; 进行公网文件下载,然后进行分析; 分析结果回调给公网服务终端。 方案设计 从推理服务的算法实例内部,访问公网服务地址的方案。如下图所示:
-
NVIDIA和CUDA驱动安装指南 - AI开发平台ModelArts
NVIDIA和CUDA驱动安装指南 场景描述 本文介绍如何华为云裸金属服务器中安装NVIDIA和CUDA驱动(以Ant8规格为例)。 1、安装NVIDIA驱动 打开NVIDIA官方网站。 根据Ant8的详细信息和您所需的cuda版本选择驱动 图1 驱动选择 选择后会自动出现Driver版本并下载,或者直接。
-
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本
-
NPU Snt9B裸金属服务器多机批量执行命令 - AI开发平台ModelArts
NPU Snt9B裸金属服务器多机批量执行命令 场景描述 在使用NPU Snt9B裸金属服务器进行多机训练/推理作业时,往往需要将多机的环境配置的完全一致。如果逐台登录主机,逐台使用环境配置脚本来配置,虽然可以完成任务,但是效率低下。为了提高效率,本文介绍如何在单节点通过脚本方式实现多台主机批量执行命令。
-
GPU裸金属服务器使用EulerOS内核误升级解决方案 - AI开发平台ModelArts
GPU裸金属服务器使用EulerOS内核误升级解决方案 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。
-
华为云BMS GO SDK和Python脚本实现裸金属服务器的操作系统切换 - AI开发平台ModelArts
35bd-4e1c-ba08-a3a686bc5097") 裸金属服务器操作系统切换状态说明 切换中, 服务器状态为“切换操作系统中”。 图1 切换中服务器状态 切换后,服务器状态为“运行中”。 图2 切换后服务器状态 父主题: FAQ
-
场景描述 - AI开发平台ModelArts
场景描述 本文旨在指导如何在Snt9b裸金属服务器上,进行磁盘合并挂载、安装docker等环境配置。在配置前请注意如下事项: 首次装机时需要配置存储、固件、驱动、网络访问等基础内容,这部分配置尽量稳定减少变化。 裸机上的开发形式建议开发者启动独立的Docker容器作为个人开发环境
-
我的Gallery介绍 - AI开发平台ModelArts
数据集 AI应用 示例 AI说 我的活动 - 展示个人参与的活动信息,可以查看活动名称、参与状态、活动状态等信息。 我的资源 云服务器 展示通过预申请算力创建的服务器列表。 申请管理 资产申请审核 展示了模型可用范围的申请单,模型所有者可以管理模型使用者的权限申请单。 我的算力预申请 展示了ModelArts
-
ModelArts计费模式概述 - AI开发平台ModelArts
ModelArts计费模式概述 ModelArts服务提供包年/包月和按需计费两种计费模式,以满足不同场景下的用户需求。如您需要快速了解ModelArts服务不同计费模式的具体价格,请参见ModelArts价格详情。 包年/包月:一种预付费模式,即先付费再使用,按照订单的购买周期
-
Server-Sent Events访问在线服务 - AI开发平台ModelArts
cket(双向实时),它更加轻量级且易于实现。 前提条件 在线服务中的AI应用导入选择的镜像需支持SSE协议。 约束与限制 SSE协议只支持部署在线服务。 只支持自定义镜像导入AI应用部署的在线服务。 SSE在线服务调用 SSE协议本身不提供额外的认证方式,和HTTP请求方式一致。
-
如何登录并上传镜像到SWR - AI开发平台ModelArts
如何登录并上传镜像到SWR 本章节介绍如何上传镜像到容器镜像服务SWR。 Step1 登录SWR 登录容器镜像服务控制台,选择区域。 单击右上角“创建组织”,输入组织名称完成组织创建。您可以自定义组织名称,本示例使用“deep-learning”,实际操作时请重新命名一个组织名称
-
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts
tworkManager服务,重新尝试SSH连接,验证网络是否恢复。 # 卸载 NetworkManagre-config-server rpm -e NetworkManager-config-server # 重启 NetworkManager 服务 systemctl restart