检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
m-enhanced、vim-filesystem、wget、telnet 目前CentOS、RedHat系列支持连接互联网,使用yum源在线安装。根据常用软件列表,请依次执行下面命令进行安装: yum install gcc yum install perl yum install
升级昇腾服务器芯片驱动 操作场景 该任务指导用户升级Atlas 800 训练服务器(型号9000)昇腾服务器芯片的驱动。 run升级包支持一键式升级,本章节以Atlas 800 训练服务器(型号9000)的A800-9000-npu-driver_x.x.x_euleros2.8-aarch64
图2 不同子网NPU卡间的网络 智能调度 AI大模型训练会将训练任务切分到多个计算节点进行分布式并行训练,会在节点之间引入复杂的通信行为,导致训练效率下降,智能调度通过考虑分布式训练通信的复杂性和集群带宽多级收敛的特性,根据大模型训练任务特征,并行度及可用资源拓扑信息,提供基于拓扑感
本文档将以部署一台Web应用服务器为场景,帮助您学习如何创建和使用裸金属服务器。通过本文档,您可以学习到如何挑选合适的服务器,如何登录服务器,以及部署Nginx软件。 仅适用于管理控制台操作。如果您是API用户,请参考API参考。 您将按以下流程学习如何使用裸金属服务器。 图1 入门流程 父主题:
鲲鹏+D910裸金属训练集群上线 鲲鹏920+昇腾910处理器的AI训练服务器集群,具有超高算力密度、能效比和网络带宽的特点;整机192 核,8* D910 AI芯片,单芯片可提供256 TFLOPS FP16算力;卡间支持100Ge RDMA高带宽低时延互联;广泛应用于深度学习模型开发和
升级昇腾服务器芯片固件 Atlas 800 训练服务器(型号9000)支持昇腾服务器芯片固件升级。本章节以Atlas 800 训练服务器(型号9000)的A800-9000-npu-firmware_x.x.x.run包为例介绍升级固件的相关操作。 操作步骤 参照升级前准备准备软
面网络实现裸金属服务器内NPU卡的互通互联,可提供大规模集群网络拓扑管理和智能调度能力,同时,结合网络大脑的故障快速感知恢复能力,可为AI训练和推理场景提供大规模高性能高可靠的网络通信。 高速网络栈相比传统网络具有如下优势: 性能优异:提供高速带宽互联网络,满足多种应用场景需求。
升级前必读 升级影响 升级过程禁止进行其他维护操作动作。 Atlas 800 训练服务器(型号9000)软件版本升级过程中需要复位系统,会导致业务中断。 注意事项 Atlas 800 训练服务器(型号9000)版本升级时的注意事项如表1所示。 表1 升级时注意事项 序号 描述 1
对于挂载在系统盘盘位(也就是“/dev/sda”挂载点)上的磁盘,仅支持离线卸载。 对于挂载在数据盘盘位(非“/dev/sda”挂载点)上的磁盘,支持离线卸载和在线卸载磁盘。 离线和在线表示裸金属服务器处于“关机”或“运行中”状态。 约束 裸金属服务器状态为“关机”时支持用户盘的卸载且没有操作系统的限制。当裸金属
步骤回显中“npu-smi”后面的字段为NPU工具版本号,“Version:”后面的字段为NPU驱动版本号。 其他命令使用请参考《Atlas 800 训练服务器 npu-smi 命令参考 (型号9000)》。 版本安装注意事项 查看日志时需注意:日志时间采用的是系统时间,device侧时间与
挂载点)上的磁盘,支持离线卸载和在线卸载磁盘。 离线和在线表示裸金属服务器处于“关机”或“运行中”状态。 约束与限制 卸载系统盘属于高危操作,卸载了系统盘,裸金属服务器会因为没有操作系统而无法启动,请谨慎执行。 对于Windows裸金属服务器,在线卸载数据盘前,请确保没有程序正在
SDK概述 本文介绍了BMS服务提供的SDK语言版本,列举了最新版本SDK的获取地址。 在线生成SDK代码 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 SDK列表 表1提供了BMS服务支持的SDK列表,您可以在GitHub仓库查看
步骤回显中“npu-smi”后面的字段为NPU工具版本号,“Version:”后面的字段为NPU驱动版本号。 其他命令使用请参考《Atlas 800 训练服务器 npu-smi 命令参考 (型号9000)》。 3. 如果卸载过程中无错误信息提示,则表示卸载成功,根据系统提示信息决定是否重启服务器,完成对软件包的卸载
(GB) 无 2 x 2*10GE + SDI卡 GPU加速型 提供优秀的浮点计算能力,从容应对高实时、高并发的海量计算场景。特别适合于深度学习、科学计算、CAE、3D动画渲染、CAD等应用。 表5 GPU加速型规格详情 规格名称/ID CPU 内存 本地磁盘 扩展配置 physical
命令,取消待卸载磁盘与文件系统之间的关联,并确保没有程序正在对该磁盘进行读写操作。否则,卸载磁盘将失败。 对于Windows裸金属服务器,在线卸载磁盘,请确保没有程序正在对该磁盘进行读写操作。否则,将造成数据丢失。 URI DELETE /v2.1/{project_id}/se
GPU加速型实例包括计算加速型(P系列)和图形加速型(G系列),提供优秀的浮点计算能力,从容应对高实时、高并发的海量计算场景。特别适合于深度学习、科学计算、CAE、3D动画渲染、CAD等应用。 表5 GPU加速型规格详情 规格名称/ID CPU 内存 本地磁盘 扩展配置 physical
升级前检查表 序号 项目 检查标准 1 检查软件版本 查询并记录当前系统中Atlas 800 训练服务器(型号9000)版本。 确认需要升级的版本。 2 检查系统状态 检查Atlas 800 训练服务器(型号9000)告警: 未出现告警,可直接升级。 出现告警时,请与技术支持确认告警情况,然后再决定下一步动作。
x86_64 [root@localhost ~]# rpm -qa | grep growpart [root@localhost ~]# 在线yum安装cloud-utils-growpart。 yum install cloud-utils-growpart 安装完成后,检查是否安装成功。
x86_64 [root@localhost ~]# rpm -qa | grep growpart [root@localhost ~]# 在线yum安装cloud-utils-growpart。 yum install cloud-utils-growpart 检查是否已安装gdisk。
/epel-release-6-8.noarch.rpm 执行yum install dracut-modules-growroot命令,在线安装dracut-modules-growroot包。 安装过程中,出现“Is this ok [y/N]”提示信息时,输入“y”。 安装完成后,执行dracut