检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
面子网内的裸金属服务器的NPU卡之间即可互相通信,不同子网的NPU卡之间网络不通。 图2 不同子网NPU卡间的网络 智能调度 AI大模型训练会将训练任务切分到多个计算节点进行分布式并行训练,会在节点之间引入复杂的通信行为,导致训练效率下降,智能调度通过考虑分布式训练通信的复杂性和
升级昇腾服务器芯片驱动 操作场景 该任务指导用户升级Atlas 800 训练服务器(型号9000)昇腾服务器芯片的驱动。 run升级包支持一键式升级,本章节以Atlas 800 训练服务器(型号9000)的A800-9000-npu-driver_x.x.x_euleros2.8-aarch64
升级前必读 升级影响 升级过程禁止进行其他维护操作动作。 Atlas 800 训练服务器(型号9000)软件版本升级过程中需要复位系统,会导致业务中断。 注意事项 Atlas 800 训练服务器(型号9000)版本升级时的注意事项如表1所示。 表1 升级时注意事项 序号 描述 1 在进行升
升级昇腾服务器芯片固件 Atlas 800 训练服务器(型号9000)支持昇腾服务器芯片固件升级。本章节以Atlas 800 训练服务器(型号9000)的A800-9000-npu-firmware_x.x.x.run包为例介绍升级固件的相关操作。 操作步骤 参照升级前准备准备软件
此类推。 RAID 6 在RAID 5的基础上,RAID 6增加了第二个独立的奇偶校验信息块。两个独立的奇偶系统使用不同的算法,数据的可靠性非常高,即使两块磁盘同时失效也不会影响数据的使用。但RAID 6需要分配给奇偶校验信息更大的磁盘空间,相对于RAID 5有更大的“写损失”,因此“写性能”较差。
安装megaraid_sas驱动 操作背景 如果服务器配套的是3408或3508 RAID卡,需要在镜像中安装megaraid_sas驱动。 操作步骤 将准备工作中获取的“RAID-3004iMR_3108_3408iMR_3416iMR_3508_3516-CentOS7.6-megaraid_sas-07
下载工具,修改工具文件权限: 查看当前硬盘与Raid配置,执行命令:./configure_raid_x86 -a show 执行结果说明: basic raid区域显示当前已有的Raid。示例中为槽位号为1:0与1:1的硬盘组成的Raid,vd的id为0,dg的id为0,级别为Raid1。 boot_d
配置RAID RAID概述 自定义组RAID 父主题: 磁盘
解压缩准备工作中的“onboard_driver_win2k16.iso”文件,获取包含RAID及megasas字样的文件夹(如“RAID-3408iMR_3416iMR_3508_3516-Win2K16-megasas35-XXX”)。 参考安装chipset驱动章节的步骤4,挂载boot
0 查看“fstab”文件中的磁盘的标识方式。 若为UUID的标识方式,无需修改。 若为设备名称的标识方式,执行4进行修改。 执行vi /etc/fstab命令,打开“fstab”文件,按“i”进入编辑模式,将“fstab”中的磁盘标识方式修改为UUID的形式。 UUID=4eb4
鲲鹏+D910裸金属训练集群上线 鲲鹏920+昇腾910处理器的AI训练服务器集群,具有超高算力密度、能效比和网络带宽的特点;整机192 核,8* D910 AI芯片,单芯片可提供256 TFLOPS FP16算力;卡间支持100Ge RDMA高带宽低时延互联;广泛应用于深度学习模型开发和训
删除SSH密钥(OpenStack原生) 功能介绍 根据SSH密钥的名称,删除指定SSH密钥。 URI DELETE /v2.1/{project_id}/os-keypairs/{keypair_name} 参数说明请参见表1。 表1 参数说明 参数 是否必选 描述 project_id
安装mpt3驱动 操作背景 如果服务器配套的是3108或3008 RAID卡,需要在镜像中安装mpt3sas驱动。 操作步骤 将准备工作中获取的“RAID-3008IR_3008IT_3408IT_3416IT-CentOS7.6-mpt3sas-27.00.00.00-1-x86_64
查询密钥名称为keypair-test的密钥详情信息。 1 GET https://{ECS Endpoint}/v2.1/bbf1946d374b44a0a2a95533562ba954/os-keypairs/keypair-test 响应参数 参数 参数类型 描述 keypair Object
裸金属服务器的优势 安全可靠 裸金属服务器是用户专属的计算资源,支持VPC、安全组隔离;支持主机安全相关组件集成;基于擎天架构的裸金属服务器支持云磁盘作为系统盘和数据盘,支持硬盘备份恢复能力;支持对接专属存储,满足企业数据安全和监管的业务安全和可靠性诉求。 性能卓越 裸金属服务器
指定运行用户是指定Driver的运行用户,Firmware不支持指定,共用Driver的运行用户。 上述命令中的username为用户名,请根据实际情况替换。 由于权限控制可能存在安全风险,创建的运行用户不建议为root用户属组。 创建完HwHiAiUser用户后,请勿关闭该用户的登录认证功能。
查询并记录当前系统中Atlas 800 训练服务器(型号9000)版本。 确认需要升级的版本。 2 检查系统状态 检查Atlas 800 训练服务器(型号9000)告警: 未出现告警,可直接升级。 出现告警时,请与技术支持确认告警情况,然后再决定下一步动作。 不同芯片的软件版本支持情况如表2所示。
参数 参数类型 描述 id String 裸金属服务器规格的ID。 name String 裸金属服务器规格的名称。 vcpus String 该裸金属服务器规格对应的CPU核数。 ram Integer 该裸金属服务器规格对应的内存大小,单位为MB。 disk String 该裸金
卸载驱动和固件 操作步骤 驱动和固件的卸载没有先后顺序。软件包中的*请根据实际情况进行替换。 使用root账户登录运行环境。 支持两种卸载方式,用户根据实际情况选择一种方式卸载即可: 使用软件包进行卸载,请在run包存放目录下执行以下命令,如/opt: ./*.run --uninstall