检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
升级昇腾服务器芯片驱动 操作场景 该任务指导用户升级Atlas 800 训练服务器(型号9000)昇腾服务器芯片的驱动。
如果创建的用户是HwHiAiUser,安装软件包时可以直接使用该运行用户,默认即为HwHiAiUser。
应用场景 AI大模型训练推理场景下通常需要大规模算力集群,为了充分发挥算力资源和网络资源的利用率,减少任务并行过程中的网络流量冲突,提升AI任务的训练推理效率,高速网络栈可以提供大规模集群的网络拓扑管理、资源的最优调度和集群的高可靠性。
升级昇腾服务器芯片固件 Atlas 800 训练服务器(型号9000)支持昇腾服务器芯片固件升级。本章节以Atlas 800 训练服务器(型号9000)的A800-9000-npu-firmware_x.x.x.run包为例介绍升级固件的相关操作。
Atlas 800 训练服务器(型号9000)软件版本升级过程中需要复位系统,会导致业务中断。 注意事项 Atlas 800 训练服务器(型号9000)版本升级时的注意事项如表1所示。
高速网络栈 高速网络栈基于高性能网络协议,通过AI参数面网络实现裸金属服务器内NPU卡的互通互联,可提供大规模集群网络拓扑管理和智能调度能力,同时,结合网络大脑的故障快速感知恢复能力,可为AI训练和推理场景提供大规模高性能高可靠的网络通信。
安装megaraid_sas驱动 操作背景 如果服务器配套的是3408或3508 RAID卡,需要在镜像中安装megaraid_sas驱动。
N/A 2020年6月 序号 功能名称 功能描述 相关文档 1 鲲鹏+D910裸金属训练集群上线 鲲鹏920+昇腾910处理器的AI训练服务器集群,具有超高算力密度、能效比和网络带宽的特点;整机192 核,8* D910 AI芯片,单芯片可提供256 TFLOPS FP16算力;卡间支持
自定义组RAID 当您需要为裸金属服务器配置RAID时,可以使用本章节介绍的自定义组RAID工具进行配置。 支持列表 支持配置RAID的实例规格及相关配置信息如表1所示。
安装mpt3驱动 操作背景 如果服务器配套的是3108或3008 RAID卡,需要在镜像中安装mpt3sas驱动。
配置RAID RAID概述 自定义组RAID 父主题: 磁盘
3408/3508 RAID卡驱动安装(可选) 操作背景 如果裸金属服务器要在3408/3508 RAID卡机型上下发,需要安装3408/3508 RAID卡驱动。其他类型服务器可跳过此步骤。
表1 升级前检查表 序号 项目 检查标准 1 检查软件版本 查询并记录当前系统中Atlas 800 训练服务器(型号9000)版本。 确认需要升级的版本。 2 检查系统状态 检查Atlas 800 训练服务器(型号9000)告警: 未出现告警,可直接升级。
其他命令使用请参考《Atlas 800 训练服务器 npu-smi 命令参考 (型号9000)》。 3. 如果卸载过程中无错误信息提示,则表示卸载成功,根据系统提示信息决定是否重启服务器,完成对软件包的卸载. 父主题: 安装与维护
RAID 10 RAID 10是将镜像和条带进行两级组合的RAID级别,即RAID 0+RAID 1的组合形式,第一级是RAID 1,第二级是RAID 0。RAID 10是存储性能和数据安全兼顾的方案。
如果软件包安装路径是指定的,以“/test/HiAI/”为例。
和“RAID-3004iMR_3108_3408iMR_3416iMR_3508_3516-CentOS7.6-megaraid_sas-07.716.01.00-1-x86_64.rpm”文件将分别用于v5服务器板载网卡驱动、mpt3驱动和megaraid_sas驱动的安装。
安装FusionServer/TaiShanServer服务器iDriver驱动 准备工作 安装服务器板载网卡驱动 安装mpt3驱动 安装megaraid_sas驱动 父主题: 安装并配置虚拟机(Linux)
1 GET https://{ECS Endpoint}/v2.1/bbf1946d374b44a0a2a95533562ba954/os-keypairs/keypair-test 响应参数 参数 参数类型 描述 keypair Object SSH密钥信息,详情请参见表2。
keypair_name 是 密钥名称。 可以通过查询SSH密钥列表(OpenStack原生)API获取。 请求参数 无 请求示例 删除名称为keypair-test的SSH密钥。