搜索_华为云

（可选）配置驱动 - AI开发平台ModelArts

方式一：购买资源池时通过自定义驱动参数进行配置在购买资源池页面，部分GPU和Ascend规格资源池允许自定义安装驱动。开启自定义驱动开关并选择需要的驱动版本即可。方式二：通过驱动升级功能对已有的资源池驱动版本进行升级如果在购买资源池时，没配置自定义驱动，默认驱动不满足业务要求，可通过驱动升级功能

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

Cann软件与Ascend驱动版本不匹配问题现象训练失败并提示“Cann软件与Ascend驱动版本不匹配”。原因分析当昇腾规格的训练作业在ModelArts训练平台上运行时，会自动对Cann软件与Ascend驱动的版本匹配情况进行检查。如果平台发现版本不匹配，则会立即训练失败，避免后续无意义的运行时长。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
infiniband驱动的安装 - AI开发平台ModelArts

infiniband驱动的安装 infiniband驱动的安装如果安装了libibverbs-dev库后仍然无法使能infiniband网卡，您可以直接安装infiniband官方驱动，以使用infiniband网卡进行分布式通信，提升训练性能。infiniband驱动需要在制作镜像时安装。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

进入资源池详情页，在节点管理页面，选择需要进行驱动升级的节点，单击操作列的“更多 > 驱动升级”。在“驱动升级”弹窗中，会显示当前专属资源池节点的名称ID、规格和驱动版本号，选择节点待升级的“升级版本”。单击“确定”，开始升级单个节点的驱动。父主题： Lite Cluster资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
升级Lite Cluster资源池驱动 - AI开发平台ModelArts

在资源池列表中，选择需要进行驱动升级的资源池“ > 驱动升级”。图1 驱动升级在“驱动升级”弹窗中，会显示当前专属资源池的驱动类型、实例数、当前版本、目标版本、升级方式、升级范围和开启滚动开关。目标版本：在目标版本下拉框中，选择一个目标驱动版本。升级方式：可选择安全升级或强制升级。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
升级Standard专属资源池驱动 - AI开发平台ModelArts

在资源池列表中，选择需要进行驱动升级的资源池，在右侧的操作列，单击“ > 驱动升级”。在“驱动升级”弹窗中，会显示当前专属资源池的驱动类型、实例数量、当前版本、目标版本、升级方式、升级范围和开启滚动开关。目标版本：在目标版本下拉框中，选择一个目标驱动版本。对于资源池新增加的节点

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本（2）执

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查询数据集版本详情 - AI开发平台ModelArts

查询数据集版本详情根据版本ID查询数据集指定版本的详细信息。 dataset.get_version_info(version_id) 示例代码查询数据集指定版本的详细信息 from modelarts.session import Session from modelarts

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集版本管理
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

令 sudo apt-get autoremove --purge nvidia-fabricmanager-版本安装与NVIDIA驱动版本号相等的nvidia-fabricmanager（以515.105.01举例）。 version=515.105.01 main_version=$(echo

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
更新管理 - AI开发平台ModelArts
更新管理 - AI开发平台ModelArts

更新管理 ModelArts在线服务更新对于已部署的推理服务，ModelArts支持通过更换模型的版本号，实现服务升级。推理服务有三种升级模式：全量升级、滚动升级（扩实例）和滚动升级（缩实例）。了解三种升级模式的流程，请参见图1。全量升级需要额外的双倍的资源，先全量创建新版本实例，然后再下线旧版本实例。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

VIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同，您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件安装步骤，您可针对需要安装的软件查看对应的内容：安装NVIDIA驱动安装CUDA驱动安装Docker 安

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

代码目录介绍 AscendCloud-3rdLLM代码包结构介绍如下： xxx-Ascend #xxx表示版本号 ├──llm_evaluation #推理评测代码包 ├──benchmark_eval #精度评测

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

代码目录介绍 AscendCloud-3rdLLM代码包结构介绍如下： xxx-Ascend #xxx表示版本号，例如6.3.T041 ├──llm_evaluation #推理评测代码包 ├──benchmark_eval

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

代码目录介绍 AscendCloud-3rdLLM代码包结构介绍如下： xxx-Ascend #xxx表示版本号 |──llm_evaluation #推理评测代码包 |──benchmark_eval #精度评测

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

代码目录介绍 AscendCloud-3rdLLM代码包结构介绍如下： xxx-Ascend #xxx表示版本号 ├──llm_evaluation #推理评测代码包 ├──benchmark_eval #精度评测

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 准备工作
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

A系列裸金属服务器有哪些注意事项？使用华为云A系列裸金属服务器时有如下注意事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
在ModelArts中如何将标注结果下载至本地？ - AI开发平台ModelArts

选择需查看数据集，单击名称左侧小三角，展开数据集详情。可获得“数据集输出位置”指定的OBS路径。进入OBS管理控制台，根据上述步骤获得的路径，找到对应版本号目录，即可获取数据集对应的标注结果。如需将标注结果下载至本地，可前往manifest文件存储的OBS中，单击“下载”，即可将标注结果存储至本地。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

行讲解。安装固件和驱动包。固件和驱动安装时，注意安装顺序：首次安装场景：硬件设备刚出厂时未安装驱动，或者硬件设备前期安装过驱动固件但是当前已卸载，上述场景属于首次安装场景，需按照“驱动->固件”的顺序安装驱动固件。覆盖安装场景：硬件设备前期安装过驱动固件且未卸载，当前要再

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

专属资源池驱动检查登录ModelArts控制台，单击“专属资源池 > 弹性集群”，选择创建的专属资源池。图1 查看专属资源池在专属池详情页可查看驱动及固件版本。如下图显示Ascend驱动为7.1.0.7.220-23.0.5，表示固件版本为7.1.0.7.220，驱动版本为23

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 准备工作
手动部署推理服务 - AI开发平台ModelArts

SSH登录机器后，检查NPU设备检查。如果驱动版本不是24.1.0，请先升级驱动和对应固件。 npu-smi info -t board -i 1 | egrep -i "software|firmware" #查看驱动和固件版本 24.1.0版本驱动文件为Ascend-hdk-910b-npu-driver_24

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理应用 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 部署推理服务

总条数： 725

上一页
1
2
3
4
5
...
37
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

（可选）配置驱动 - AI开发平台ModelArts

Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

infiniband驱动的安装 - AI开发平台ModelArts

升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

升级Lite Cluster资源池驱动 - AI开发平台ModelArts

升级Standard专属资源池驱动 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

查询数据集版本详情 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

更新管理 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

在ModelArts中如何将标注结果下载至本地？ - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

手动部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线