检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
升级昇腾服务器芯片驱动 操作场景 该任务指导用户升级Atlas 800 训练服务器(型号9000)昇腾服务器芯片的驱动。 run升级包支持一键式升级,本章节以Atlas 800 训练服务器(型号9000)的A800-9000-npu-driver_x.x.x_euleros2.8-aarch64
图2 不同子网NPU卡间的网络 智能调度 AI大模型训练会将训练任务切分到多个计算节点进行分布式并行训练,会在节点之间引入复杂的通信行为,导致训练效率下降,智能调度通过考虑分布式训练通信的复杂性和集群带宽多级收敛的特性,根据大模型训练任务特征,并行度及可用资源拓扑信息,提供基于
升级前必读 升级影响 升级过程禁止进行其他维护操作动作。 Atlas 800 训练服务器(型号9000)软件版本升级过程中需要复位系统,会导致业务中断。 注意事项 Atlas 800 训练服务器(型号9000)版本升级时的注意事项如表1所示。 表1 升级时注意事项 序号 描述 1
升级昇腾服务器芯片固件 Atlas 800 训练服务器(型号9000)支持昇腾服务器芯片固件升级。本章节以Atlas 800 训练服务器(型号9000)的A800-9000-npu-firmware_x.x.x.run包为例介绍升级固件的相关操作。 操作步骤 参照升级前准备准备软
推。 RAID 10 RAID 10是将镜像和条带进行两级组合的RAID级别,即RAID 0+RAID 1的组合形式,第一级是RAID 1,第二级是RAID 0。RAID 10是存储性能和数据安全兼顾的方案。它在提供与RAID 1一样的数据安全保障的同时,也提供了与RAID 0近似的存储性能。
配置RAID RAID概述 自定义组RAID 父主题: 磁盘
安装megaraid_sas驱动 操作背景 如果服务器配套的是3408或3508 RAID卡,需要在镜像中安装megaraid_sas驱动。 操作步骤 将准备工作中获取的“RAID-3004iMR_3108_3408iMR_3416iMR_3508_3516-CentOS7.6-megaraid_sas-07
000000", "domain_id": "d78cbac1..........", "xdomain_id": "30086000........", "xdomain_type": "", "
DISKS 配置raid 参数说明: --l:必选参数,raid级别。 --d:可选参数,创建raid的pds,若不选择则默认选择全部除系统盘以外pd。 选择的磁盘若已有raid/单盘jbod配置,脚本会拆除原有raid配置并组新raid且无法配置系统盘raid。 # ./configure_raid_x86
如何调用API 构造请求 认证鉴权 返回结果
"********", //IAM用户密码 "domain": { "name": "domainname" //IAM用户所属账号名 }
"domain_id": "accountid", "name": "username", "password": "**********", "email": "email", "description":
鲲鹏+D910裸金属训练集群上线 鲲鹏920+昇腾910处理器的AI训练服务器集群,具有超高算力密度、能效比和网络带宽的特点;整机192 核,8* D910 AI芯片,单芯片可提供256 TFLOPS FP16算力;卡间支持100Ge RDMA高带宽低时延互联;广泛应用于深度学习模型开发和训
升级前检查表 序号 项目 检查标准 1 检查软件版本 查询并记录当前系统中Atlas 800 训练服务器(型号9000)版本。 确认需要升级的版本。 2 检查系统状态 检查Atlas 800 训练服务器(型号9000)告警: 未出现告警,可直接升级。 出现告警时,请与技术支持确认告警情况,然后再决定下一步动作。
误升内核的场景,如何回退至原始内核版本? 问题背景 裸金属服务器中SDI、RAID及IB等硬件驱动跟内核相关,不建议升级内核版本。 如果已经升级且相关功能出现异常可按照以下方法进行规避处理。以CentOS 7.2操作系统为例,介绍如何在内核升级后设置从默认内核启动。 升级场景复现
裸金属服务器如何保证数据安全? 裸金属服务器具备物理机级的性能和隔离性,用户独占计算资源,并且无任何虚拟化开销。存储在高性能高可靠的服务器上的数据,自然也会很安全。 带有本地磁盘的裸金属服务器,支持本地磁盘组RAID,磁盘数据冗余存储,提升容错能力,确保数据安全。 无本地磁盘的裸
如何选择存储类型? 在创建裸金属服务器页面配置磁盘类型时,主要提供以下存储类型,您可根据实际需求进行选择配置。当前创建时仅支持携一种类型的磁盘下发裸金属服务器。 云硬盘(EVS):提供多种不同QoS的云硬盘类型给裸金属服务器使用,满足不同性能要求的业务场景。 专属分布式存储(DS
如何查看云硬盘盘符? 裸金属服务器重启后,挂载至该裸金属服务器上的云硬盘盘符可能发生变化,您可以参考本指导快速找到云硬盘和盘符间的对应关系。 在裸金属服务器详情页面,记录云硬盘的“设备标识”信息。 登录裸金属服务器操作系统,进入“/dev/disk/by-id”目录,执行ll查看
步骤回显中“npu-smi”后面的字段为NPU工具版本号,“Version:”后面的字段为NPU驱动版本号。 其他命令使用请参考《Atlas 800 训练服务器 npu-smi 命令参考 (型号9000)》。 3. 如果卸载过程中无错误信息提示,则表示卸载成功,根据系统提示信息决定是否重启服务器,完成对软件包的卸载
远程登录裸金属服务器时界面操作无响应,如何解决? 问题描述 远程登录裸金属服务器时,按“Enter”后界面无任何响应。 可能原因 裸金属服务器操作系统内部配置不允许通过远程访问。 解决方案 使用密钥对(KeyPair)登录裸金属服务器,进入操作系统进行相关设置,各操作系统的配置有