检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
升级昇腾服务器芯片驱动 操作场景 该任务指导用户升级Atlas 800 训练服务器(型号9000)昇腾服务器芯片的驱动。 run升级包支持一键式升级,本章节以Atlas 800 训练服务器(型号9000)的A800-9000-npu-driver_x.x.x_euleros2.8-aarch64
升级昇腾服务器芯片固件 Atlas 800 训练服务器(型号9000)支持昇腾服务器芯片固件升级。本章节以Atlas 800 训练服务器(型号9000)的A800-9000-npu-firmware_x.x.x.run包为例介绍升级固件的相关操作。 操作步骤 参照升级前准备准备软
图2 不同子网NPU卡间的网络 智能调度 AI大模型训练会将训练任务切分到多个计算节点进行分布式并行训练,会在节点之间引入复杂的通信行为,导致训练效率下降,智能调度通过考虑分布式训练通信的复杂性和集群带宽多级收敛的特性,根据大模型训练任务特征,并行度及可用资源拓扑信息,提供基于
鲲鹏+D910裸金属训练集群上线 鲲鹏920+昇腾910处理器的AI训练服务器集群,具有超高算力密度、能效比和网络带宽的特点;整机192 核,8* D910 AI芯片,单芯片可提供256 TFLOPS FP16算力;卡间支持100Ge RDMA高带宽低时延互联;广泛应用于深度学习模型开发和训
SDK,支持自助式资源生命周期管理和运维。 云服务和解决方案快速集成 裸金属服务器基于统一的VPC模型,支持公有云云服务的快速集成;帮助企业客户实现数据库、大数据、容器、HPC、AI等关键业务云化解决方案集成和加速业务云化上线效率。
安装megaraid_sas驱动 操作背景 如果服务器配套的是3408或3508 RAID卡,需要在镜像中安装megaraid_sas驱动。 操作步骤 将准备工作中获取的“RAID-3004iMR_3108_3408iMR_3416iMR_3508_3516-CentOS7.6-megaraid_sas-07
升级前必读 升级影响 升级过程禁止进行其他维护操作动作。 Atlas 800 训练服务器(型号9000)软件版本升级过程中需要复位系统,会导致业务中断。 注意事项 Atlas 800 训练服务器(型号9000)版本升级时的注意事项如表1所示。 表1 升级时注意事项 序号 描述 1
推。 RAID 10 RAID 10是将镜像和条带进行两级组合的RAID级别,即RAID 0+RAID 1的组合形式,第一级是RAID 1,第二级是RAID 0。RAID 10是存储性能和数据安全兼顾的方案。它在提供与RAID 1一样的数据安全保障的同时,也提供了与RAID 0近似的存储性能。
二层VPN隧道。 高速网络栈 高速网络栈基于高性能网络协议,通过AI参数面网络实现裸金属服务器内NPU卡的互通互联,可提供大规模集群网络拓扑管理和智能调度能力,同时,结合网络大脑的故障快速感知恢复能力,可为AI训练和推理场景提供大规模高性能高可靠的网络通信。 高速网络栈相比传统网络具有如下优势:
run --check 执行以下命令进行安装。 如果软件包安装路径是指定的,以“/test/HiAI/”为例。执行./*.run --full --install-path=/test/HiAI/ 如果软件包安装路径是默认的,执行./*.run –full 以Euler2.8操作系统,
安装FusionServer/TaiShanServer服务器iDriver驱动 准备工作 安装服务器板载网卡驱动 安装mpt3驱动 安装megaraid_sas驱动 父主题: 安装并配置虚拟机(Linux)
DISKS 配置raid 参数说明: --l:必选参数,raid级别。 --d:可选参数,创建raid的pds,若不选择则默认选择全部除系统盘以外pd。 选择的磁盘若已有raid/单盘jbod配置,脚本会拆除原有raid配置并组新raid且无法配置系统盘raid。 # ./configure_raid_x86
3408/3508 RAID卡驱动安装(可选) 操作背景 如果裸金属服务器要在3408/3508 RAID卡机型上下发,需要安装3408/3508 RAID卡驱动。其他类型服务器可跳过此步骤。 本文以Windows Server 2016为例,Windows Server 2012
升级前检查表 序号 项目 检查标准 1 检查软件版本 查询并记录当前系统中Atlas 800 训练服务器(型号9000)版本。 确认需要升级的版本。 2 检查系统状态 检查Atlas 800 训练服务器(型号9000)告警: 未出现告警,可直接升级。 出现告警时,请与技术支持确认告警情况,然后再决定下一步动作。
rpm”和“RAID-3004iMR_3108_3408iMR_3416iMR_3508_3516-CentOS7.6-megaraid_sas-07.716.01.00-1-x86_64.rpm”文件将分别用于v5服务器板载网卡驱动、mpt3驱动和megaraid_sas驱动的安装。
查询密钥名称为keypair-test的密钥详情信息。 1 GET https://{ECS Endpoint}/v2.1/bbf1946d374b44a0a2a95533562ba954/os-keypairs/keypair-test 响应参数 参数 参数类型 描述 keypair Object
配置RAID RAID概述 自定义组RAID 父主题: 磁盘
步骤回显中“npu-smi”后面的字段为NPU工具版本号,“Version:”后面的字段为NPU驱动版本号。 其他命令使用请参考《Atlas 800 训练服务器 npu-smi 命令参考 (型号9000)》。 3. 如果卸载过程中无错误信息提示,则表示卸载成功,根据系统提示信息决定是否重启服务器,完成对软件包的卸载
《华为云安全白皮书》详细介绍华为云安全性的构建思路与措施,包括云安全战略、责任共担模型、合规与隐私、安全组织与人员、基础设施安全、租户服务与租户安全、工程安全、运维运营安全、生态安全。 图1 华为云安全责任共担模型 父主题: 安全
/v2.1/{project_id}/os-keypairs/{keypair_name} 参数说明请参见表1。 表1 参数说明 参数 是否必选 描述 project_id 是 项目ID。 获取方式请参见获取项目ID。 keypair_name 是 密钥名称。 可以通过查询SSH密