搜索_华为云

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

ux工具，用于在系统中加载NVIDIA驱动程序及其相关的内核模块。在Linux系统上安装NVIDIA显卡驱动后，需要通过“nvidia-modprobe”命令来加载相应的内核模块，以便让显卡驱动正常工作。通常情况下，在安装NVIDIA驱动时，会自动执行“nvidia-modpr

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
推理业务迁移评估表 - AI开发平台ModelArts

业务中是否有大量使用CPU的代码，以及日常运行过程中CPU的占用率（占用多少个核心），以及使用CPU计算的业务功能说明和并发机制。 - 是否有Linux内核驱动是否有业务相关的Linux内核驱动代码。 - 依赖第三方组件列表当前业务依赖的第三方软件列表（自行编译的第三方软件列表）。例如：Faiss等。 - 推理框架

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

业务中是否有大量使用CPU的代码，以及日常运行过程中CPU的占用率（占用多少个核心），以及使用CPU计算的业务功能说明和并发机制。 - 是否有Linux内核驱动是否有业务相关的Linux内核驱动代码。 - 依赖第三方组件列表当前业务依赖的第三方软件列表（自行编译的第三方软件列表）。例如：Faiss等。 - 推理框架

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
在ModelArts上如何创建引用第三方依赖包的训练作业？ - AI开发平台ModelArts

暂时不支持直接从github的源码中安装。在“代码目录”中创建一个命名为“pip-requirements.txt”的文件，并且在文件中写明依赖包的包名及其版本号，格式为“包名==版本号”。例如，“代码目录”对应的OBS路径下，包含模型文件，同时还存在“pip-requirements.txt”文件。“代码目录”的结构如下所示：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
Lite Cluster高危操作一览表 - AI开发平台ModelArts

可能影响ModelArts侧基本功能，包括但不限于节点管理、扩缩容、驱动升级等。中改回原有内容。网络修改/删除集群关联网段。影响ModelArts侧基本功能，包括但不限于节点管理、扩缩容、驱动升级等。高不可恢复。插件升级、卸载gpu-beta插件。可能导致GPU驱动使用异常。中回退版本、重装插件。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
训练作业日志中提示“No module named .*” - AI开发平台ModelArts

依赖包为开源安装包时在“代码目录”中创建一个命名为“pip-requirements.txt”的文件，并且在文件中写明依赖包的包名及其版本号，格式为“包名==版本号”。例如，“代码目录”对应的OBS路径下，包含模型文件，同时还存在“pip-requirements.txt”文件。“代码目录”的结构如下所示：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
使用CES监控Lite Server资源 - AI开发平台ModelArts

GpuEnvironmentSystem 重要 nvidia-smi命令异常请检查GPU驱动是否正常 GPU卡驱动不可用 GPU 重要 nvidia-fabricmanager版本和GPU驱动版本不一致请检查GPU驱动版本和nvidia-fabricmanager版本 nvidia-fabricmanager

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
Lite Cluster&Server介绍 - AI开发平台ModelArts

夹能够权限控制，避免出现所有人都可以挂载使用，导致某用户误删所有数据的情况。支持选择资源池的驱动版本通过选择资源池的驱动版本，解决资源池所有节点驱动版本一致的时候，并且没有指定驱动版本，会导致后续加入资源池的节点并不能自动升级到该版本情况，优化了当前需手工处理，增加运维成本问题。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

原因分析训练镜像的numpy版本与Notebook中不一致。处理方法在代码中打印出numpy的版本，查看是否为1.18.5版本，如果非该版本号则在代码开始处执行： import os os.system('pip install numpy==1.18.5') 如果依旧有报错情况，将以上代码修改为：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
更新资源池 - AI开发平台ModelArts

PoolDriverStatus object GPU驱动信息。 npu PoolDriverStatus object NPU驱动信息。表25 PoolDriverStatus 参数参数类型描述 version String 当前驱动版本。 state String 当前驱动状态。可选值如下： Creating：创建中

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
创建Standard专属资源池 - AI开发平台ModelArts

资源调度与切分自定义驱动默认关闭。部分GPU和Ascend规格资源池允许自定义安装驱动。集群中默认会安装驱动，无需用户操作。只有需要指定驱动版本时，需要开启。 GPU驱动/Ascend驱动打开“自定义驱动”开关，显示此参数，选择GPU/Ascend驱动。如果实例规格类型为G

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
Standard支持的AI框架 - AI开发平台ModelArts

创建训练作业时，训练支持的AI引擎及对应版本如下所示。预置引擎命名格式如下： <训练引擎名称_版本号>-[cpu | <cuda_版本号 | cann_版本号 >]-<py_版本号>-<操作系统名称_版本号>-< x86_64 | aarch64> 表4 训练作业支持的AI引擎工作环境系统架构

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
Wav2Lip推理基于Lite Server适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

Wav2Lip推理基于Lite Server适配PyTorch NPU推理指导（6.3.907） Wav2Lip是一种基于对抗生成网络的由语音驱动的人脸说话视频生成模型。主要应用于数字人场景。不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频，还可以直接将动态的视频进行唇形转换，

帮助中心 > AI开发平台ModelArts > 最佳实践 > 数字人模型训练推理
Wav2Lip训练基于Lite Server适配PyTorch NPU训练指导（6.3.907） - AI开发平台ModelArts

的Wav2Lip模型，是在原生Wav2Lip代码基础上适配后的模型，可以用于NPU芯片训练。 Wav2Lip是一种基于对抗生成网络的由语音驱动的人脸说话视频生成模型。主要应用于数字人场景。不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频，还可以直接将动态的视频进行唇形转换，

帮助中心 > AI开发平台ModelArts > 最佳实践 > 数字人模型训练推理
查询插件模板 - AI开发平台ModelArts

plugintemplate_name 是 String 插件模板的名称。可选值如下： gpu-driver：GPU驱动插件模板信息 npu-driver：NPU驱动插件模板信息请求参数无响应参数状态码：200 表2 响应Body参数参数参数类型描述 apiVersion

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

参见示例：从 0 到 1 制作自定义镜像并用于训练（MindSpore+Ascend）。驱动版本与底层驱动不兼容当对自定义镜像的驱动进行升级时，请确定底层驱动是否兼容。当前支持哪种驱动版本，请从基础镜像中获取。文件权限不足该问题可能为自定义镜像的用户与作业容器的用户不同导致的。请修改dockerfile文件：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
MoXing Framework功能介绍 - AI开发平台ModelArts

引入MoXing Framework的相关说明在引入MoXing模块后，Python的标准logging模块会被设置为INFO级别，并打印版本号信息。可以通过以下API重新设置logging的等级。 1 2 3 4 import logging from moxing.framework

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
创建资源池 - AI开发平台ModelArts

PoolDriverStatus object GPU驱动信息。 npu PoolDriverStatus object NPU驱动信息。表27 PoolDriverStatus 参数参数类型描述 version String 当前驱动版本。 state String 当前驱动状态。可选值如下： Creating：创建中

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
Lite Server高危操作一览表 - AI开发平台ModelArts

低：高、中风险等级外的其他高危操作。表1 高危操作一览表操作对象操作名称风险描述风险等级应对措施操作系统升级/修改操作系统内核或者驱动。如果升级/修改操作系统内核或者驱动，很可能导致驱动和内核版本不兼容，从而导致OS无法启动，或者基本功能不可用。相关高危命令如：apt-get upgrade。高

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
训练性能测试 - AI开发平台ModelArts

任务完成之后会在test-benchmark目录下生成excel表格：性能结果LLaMAFactory_train_performance_benchmark_<版本号>_<时间戳>.xlsx 表格样例如下：父主题：训练benchmark工具

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901） > 训练benchmark工具

总条数： 725

上一页
1
2
3
4
5
...
37
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

推理业务迁移评估表 - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

在ModelArts上如何创建引用第三方依赖包的训练作业？ - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

训练作业日志中提示“No module named .*” - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

Lite Cluster&Server介绍 - AI开发平台ModelArts

日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

更新资源池 - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

Standard支持的AI框架 - AI开发平台ModelArts

Wav2Lip推理基于Lite Server适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

Wav2Lip训练基于Lite Server适配PyTorch NPU训练指导（6.3.907） - AI开发平台ModelArts

查询插件模板 - AI开发平台ModelArts

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

MoXing Framework功能介绍 - AI开发平台ModelArts

创建资源池 - AI开发平台ModelArts

Lite Server高危操作一览表 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线