检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
适配的CANN版本是cann_8.0.rc2,驱动版本是23.0.5。 本文档适用于OBS+SFS Turbo的数据存储方案,不适用于仅使用OBS的存储方案。
适配的CANN版本是cann_8.0.rc2,驱动版本是23.0.5。 约束限制 本案例仅支持在专属资源池上运行。 支持的模型列表 本方案支持以下模型的训练,如表1所示。
通常Snt9b出厂机器有预装固件驱动,因此本案例中是“覆盖安装场景”,注意: 如果新装的固件驱动比环境上已有的版本低,只要npu-smi工具可用,也是直接装新软件包即可,不用先卸载环境上已有的版本。 如果固件驱动安装失败,可先根据报错信息在开发者社区搜索解决方案。
当前还不支持在CES界面直接一键安装监控,需要登录到服务器上执行以下命令安装配置Agent。其它region的安装请参考单台主机下安装Agent。
CUDA版本需要参考专属资源池的GPU驱动版本,自主进行适配,GPU驱动版本可在专属资源池详情页面查看。 父主题: Standard镜像相关
本文档中提供的Wav2Lip模型,是在原生Wav2Lip代码基础上适配后的模型,可以用于NPU芯片训练。 Wav2Lip是一种基于对抗生成网络的由语音驱动的人脸说话视频生成模型。主要应用于数字人场景。
升级Lite Cluster资源池驱动:当资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。
可能原因如下,仅供参考: 驱动程序问题:可能是由于驱动程序没有正确安装或配置,导致NVLINK带宽受限。重新安装nvidia驱动、CUDA和nvidia-fabricmanager等软件后,驱动程序可能已经正确配置,从而解决了这个问题。
Wav2Lip推理基于Lite Server适配PyTorch NPU推理指导(6.3.907) Wav2Lip是一种基于对抗生成网络的由语音驱动的人脸说话视频生成模型。主要应用于数字人场景。
导致驱动升级、故障检测、指标采集、节点运维功能异常。 高 联系华为云技术支持重装os-node-agent。 升级、回退、卸载rdma-sriov-dev-plugin。 可能影响容器内使用RDMA网卡。 高 联系华为云技术支持重装rdma-sriov-dev-plugin。
可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 表21 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。
ModelArts Lite又分以下2种形态: ModelArts Lite Server提供不同型号的xPU裸金属服务器,您可以通过弹性公网IP进行访问,在给定的操作系统镜像上可以自行安装加速卡相关的驱动和其他软件,使用SFS或OBS进行数据存储和读取相关的操作,满足算法工程师进行日常训练的需要
BMS 裸金属服务器(Bare Metal Server)是一款兼具虚拟机弹性和物理机性能的计算类服务,为您和您的企业提供专属的云上物理服务器,为核心数据库、关键应用系统、高性能计算、大数据等业务提供卓越的计算性能以及数据安全。
-euler_2.10.10-aarch64-snt9b 2024-11-15 基于昇腾930商发版本,cann更新至8.0.rc3,配套驱动Ascend HDK 24.1.RC3 父主题: ModelArts支持的预置镜像列表
可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 表24 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。
可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 表14 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。
board -i 1 | egrep -i "software|firmware" #查看驱动和固件版本 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。
board -i 1 | egrep -i "software|firmware" #查看驱动和固件版本 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。
在完成运维操作后,华为云技术支持会主动关闭已获得授权,无需您额外操作。 重部署操作 当故障节点满足如表2所示的重部署操作执行条件时,可通过重部署操作授权华为技术支持对故障节点进行重部署。
表1 高危操作一览表 操作对象 操作名称 风险描述 风险等级 应对措施 操作系统 升级/修改操作系统内核或者驱动。 如果升级/修改操作系统内核或者驱动,很可能导致驱动和内核版本不兼容,从而导致OS无法启动,或者基本功能不可用。相关高危命令如:apt-get upgrade。