检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。 中 改回原有内容。 网络 修改/删除集群关联网段。 影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。 高 不可恢复。 插件 升级、卸载gpu-beta插件。 可能导致GPU驱动使用异常。 中 回退版本、重装插件。
GpuEnvironmentSystem 重要 nvidia-smi命令异常 请检查GPU驱动是否正常 GPU卡驱动不可用 重要 nvidia-fabricmanager版本和GPU驱动版本不一致 请检查GPU驱动版本和nvidia-fabricmanager版本 nvidia-fabricmanager
依赖包为开源安装包时 在“代码目录”中创建一个命名为“pip-requirements.txt”的文件,并且在文件中写明依赖包的包名及其版本号,格式为“包名==版本号”。 例如,“代码目录”对应的OBS路径下,包含模型文件,同时还存在“pip-requirements.txt”文件。“代码目录”的结构如下所示:
原因分析 训练镜像的numpy版本与Notebook中不一致。 处理方法 在代码中打印出numpy的版本,查看是否为1.18.5版本,若非该版本号则在代码开始处执行: import os os.system('pip install numpy==1.18.5') 如果依旧有报错情况,将以上代码修改为:
夹能够权限控制,避免出现所有人都可以挂载使用,导致某用户误删所有数据的情况。 支持选择资源池的驱动版本 通过选择资源池的驱动版本,解决资源池所有节点驱动版本一致的时候,并且没有指定驱动版本,会导致后续加入资源池的节点并不能自动升级到该版本情况,优化了当前需手工处理,增加运维成本问题。
这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区,您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设施相比,可用区具有更高的可用性、容错性和可扩展性。 ModelArts通过对DB的数据进行备份,保证在原数据被破坏或损坏的情况下可以恢复业务。
创建训练作业时,训练支持的AI引擎及对应版本如下所示。 预置引擎命名格式如下: <训练引擎名称_版本号>-[cpu | <cuda_版本号 | cann_版本号 >]-<py_版本号>-<操作系统名称_版本号>-< x86_64 | aarch64> 表4 训练作业支持的AI引擎 工作环境 系统架构
Wav2Lip推理基于DevServer适配PyTorch NPU推理指导(6.3.907) Wav2Lip是一种基于对抗生成网络的由语音驱动的人脸说话视频生成模型。主要应用于数字人场景。不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频,还可以直接将动态的视频进行唇形转换,
创建训练作业时,训练支持的AI引擎及对应版本如下所示。 预置引擎命名格式如下: <训练引擎名称_版本号>-[cpu | <cuda_版本号 | cann_版本号 >]-<py_版本号>-<操作系统名称_版本号>-< x86_64 | aarch64> 表4 训练作业支持的AI引擎 工作环境 系统架构
的Wav2Lip模型,是在原生Wav2Lip代码基础上适配后的模型,可以用于NPU芯片训练。 Wav2Lip是一种基于对抗生成网络的由语音驱动的人脸说话视频生成模型。主要应用于数字人场景。不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频,还可以直接将动态的视频进行唇形转换,
导出的Excel表格。 驱动升级 支持升级Lite资源池内单个节点驱动版本,或批量升级多个节点的驱动版本。详情请参见升级Lite Cluster资源池单个节点驱动章节。 查找搜索节点 在节点管理页面的搜索栏中,支持通过节点名称、状态、批次、驱动版本、驱动状态、IP地址、节点池、资源标签等关键字搜索节点。
引入MoXing Framework的相关说明 在引入MoXing模块后,Python的标准logging模块会被设置为INFO级别,并打印版本号信息。可以通过以下API重新设置logging的等级。 1 2 3 4 import logging from moxing.framework
plugintemplate_name 是 String 插件模板的名称。可选值如下: gpu-driver:GPU驱动插件模板信息 npu-driver:NPU驱动插件模板信息 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 apiVersion
资源调度与切分 自定义驱动 默认关闭。部分GPU和Ascend规格资源池允许自定义安装驱动。集群中默认会安装驱动,无需用户操作。只有需要指定驱动版本时,需要开启。 GPU驱动/Ascend驱动 打开“自定义驱动”开关,显示此参数,选择GPU/Ascend驱动。如果实例规格类型为G
PoolDriverStatus object GPU驱动信息。 npu PoolDriverStatus object NPU驱动信息。 表25 PoolDriverStatus 参数 参数类型 描述 version String 当前驱动版本。 state String 当前驱动状态。可选值如下: Creating:创建中
获取标注信息前,需确保数据集已发布,至少有一个以上数据集版本。 图1 数据集详情 进入OBS管理控制台,根据上述步骤获得的路径,找到对应版本号目录,即可获取数据集对应的标注结果。 图2 获取标注结果 父主题: Standard数据管理
参见示例:从 0 到 1 制作自定义镜像并用于训练(MindSpore+Ascend)。 驱动版本与底层驱动不兼容 当对自定义镜像的驱动进行升级时,请确定底层驱动是否兼容。当前支持哪种驱动版本,请从基础镜像中获取。 文件权限不足 该问题可能为自定义镜像的用户与作业容器的用户不同导致的。请修改dockerfile文件:
低:高、中风险等级外的其他高危操作。 表1 高危操作一览表 操作对象 操作名称 风险描述 风险等级 应对措施 操作系统 升级/修改操作系统内核或者驱动。 如果升级/修改操作系统内核或者驱动,很可能导致驱动和内核版本不兼容,从而导致OS无法启动,或者基本功能不可用。相关高危命令如:apt-get upgrade。 高
PoolDriverStatus object GPU驱动信息。 npu PoolDriverStatus object NPU驱动信息。 表27 PoolDriverStatus 参数 参数类型 描述 version String 当前驱动版本。 state String 当前驱动状态。可选值如下: Creating:创建中
0.rc2,配套驱动Ascend HDK 24.1.RC2 pytorch_2.1.0-cann_8.0.rc2-py_3.9-euler_2.10.7-aarch64-snt9b 2024-07-27 基于昇腾715商发版本,cann更新至8.0.rc2,配套驱动Ascend HDK