搜索_华为云

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建镜像组织在SWR服务页面创建镜像组织。图1 创建镜像组织 Step2 登录ECS服务器根据创建ECS服务器创建完成ECS服务器后，单击“远程登录”，可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建镜像组织在SWR服务页面创建镜像组织。图1 创建镜像组织 Step2 登录ECS服务器根据创建ECS服务器创建完成ECS服务器后，单击“远程登录”，可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% 原因是代码运行卡死导致被进程清理，GPU显存没有释放；或者代码运行过程中内存溢出导致程序被清理，需要释放下显存，清理GPU，然后重新启动。为了避免进程结束引起的代码未保存，建议您每隔一段时间保存下代码输出至OBS桶或者容器

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > Notebook实例常见错误
在线服务和批量服务有什么区别？ - AI开发平台ModelArts

在线服务和批量服务有什么区别？在线服务将模型部署为一个Web服务，您可以通过管理控制台或者API接口访问在线服务。批量服务批量服务可对批量数据进行推理，完成数据处理后自动停止。批量服务一次性推理批量数据，处理完服务结束。在线服务提供API接口，供用户调用推理。父主题：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 功能咨询
配置Lite Cluster网络 - AI开发平台ModelArts

配置Lite Cluster网络本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档，您可以实现弹性云服务器访问公网的目的。使用华为云账号登录CCE管理控制台。找到购买Cluster资源时选择的CCE集群，单击名称进入CCE集群详情页面，单击“节点管理”页签，在“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？问题现象在高性能8卡GPU的裸金属上的训练任务突然变慢，以前1个epoch约2小时执行完成，最近1个epoch需要2天才能执行完成，并且执行“nvidia-smi”也明显变很卡顿。原因分析根据现象描述可能出现了nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
Standard数据管理 - AI开发平台ModelArts

添加图片时，图片大小有限制吗？数据集图片无法显示，如何解决？如何将多个物体检测的数据集合并成一个数据集？导入数据集失败表格类型的数据集如何标注本地标注的数据，导入ModelArts需要做什么？为什么通过Manifest文件导入失败？标注结果存储在哪里？如何将标注结果下载至本地？团队标注时，为什么团队成员收不到邮件？

帮助中心 > AI开发平台ModelArts > 常见问题
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

否则训练会失败。配置节点间SSH免密互信涉及代码适配和训练作业参数配置，本文提供了一个操作示例。准备一个预装OpenSSH的自定义镜像，使用的训练框架是MPI或Horovod。准备一个sshd启动脚本文件“start_sshd.sh”。 MY_SSHD_PORT=${MY

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
创建Notebook并执行性能诊断任务 - AI开发平台ModelArts

创建Notebook并执行性能诊断任务本文介绍如何创建Notebook并执行性能诊断任务。操作步骤创建Notebook实例。在ModelArts控制台创建一个Notebook实例，选择要使用的AI框架，创建Notebook时可以选择任意镜像。具体参见创建Notebook实例。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
在ModelArts中如何查看OBS目录下的所有文件？ - AI开发平台ModelArts

在ModelArts中如何查看OBS目录下的所有文件？在使用Notebook或训练作业时，需要查看目录下的所有文件，您可以通过如下方式实现：通过OBS管理控制台进行查看。使用当前账户登录OBS管理控制台，去查找对应的OBS桶、文件夹、文件。通过接口判断路径是否存在。在已有

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

单机场景下（即选择的实例数为1），ModelArts只会在一个节点上启动一个训练容器，该训练容器独享节点规格的可使用资源。多机场景下（即选择的实例数大于1），ModelArts会优先在相同节点上启动一个parameter server（以下简称ps）和一个worker，平台会自动一比一分配ps与

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
自动学习项目中，如何进行增量训练？ - AI开发平台ModelArts

自动学习项目中，如何进行增量训练？在自动学习项目中，每训练一次，将自动产生一个训练版本。当前一次的训练结果不满意时（如对训练精度不满意），您可以适当增加高质量的数据，或者增减标签，然后再次进行训练。增量训练目前仅支持“图像分类”、“物体检测”、“声音分类”类型的自动学习项目。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
如何在Notebook中安装外部库？ - AI开发平台ModelArts

例如，通过JupyterLab在“TensorFlow-1.8”的环境中安装Shapely。打开一个Notebook实例，进入到Launcher界面。在“Notebook”区域下，选择“TensorFlow-1.8”，新建一个ipynb文件。在新建的Notobook中，在代码输入栏输入如下命令。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 环境配置相关
推理精度测试 - AI开发平台ModelArts

推理精度测试本章节介绍如何进行推理精度测试，请在Notebook的JupyterLab中另起一个Terminal，进行推理精度测试。 Step1 配置精度测试环境获取精度测试代码。精度测试代码存放在代码包AscendCloud-LLM的llm_tools/llm_evaluation目录中，代码目录结构如下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
使用ModelArts Studio的Qwen2-7B模型框架实现对话问答 - AI开发平台ModelArts

本案例用于指导用户使用ModelArts Studio大模型即服务平台（下面简称为MaaS）的Qwen2-7B模型框架，创建并部署一个模型服务，实现对话问答。通过学习本案例，您可以快速了解如何在MaaS服务上的创建和部署模型。更多MaaS服务的使用指导请参见用户指南。操作流程开始使用如下样例前，请务必按准备工作指导完成必要操作。

帮助中心 > AI开发平台ModelArts > 快速入门
推理精度测试 - AI开发平台ModelArts

推理精度测试本章节介绍如何进行推理精度测试，请在Notebook的JupyterLab中另起一个Terminal，进行推理精度测试。 Step1 配置精度测试环境获取精度测试代码。精度测试代码存放在代码包AscendCloud-LLM的llm_tools/llm_evaluation目录中，代码目录结构如下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
通过Function Calling扩展大语言模型对外部环境的理解 - AI开发平台ModelArts

通过Function Calling扩展大语言模型对外部环境的理解本示例将展示如何定义一个获取送货日期的函数，并通过LLM来调用外部API来获取外部信息。操作步骤设置Maas的api key和模型服务地址。 import requests from openai import

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 通过Function Calling扩展大语言模型交互能力
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

托”）。至此，您应该已经发现了一个细节，ModelArts在使用委托时，是将其与用户进行关联的，用户与委托的关系是多对1的关系。这意味着，如果两个用户需要配置的委托一致，那么不需要为每个用户都创建一个独立的委托项，只需要将两个用户都“指向”同一个委托项即可。图2 用户与委托对应关系

 帮助中心 > AI开发平台ModelArts > 产品介绍

总条数： 1377

上一页
1
...
4
5
6
...
69
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

在线服务和批量服务有什么区别？ - AI开发平台ModelArts

配置Lite Cluster网络 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

Standard数据管理 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

创建Notebook并执行性能诊断任务 - AI开发平台ModelArts

在ModelArts中如何查看OBS目录下的所有文件？ - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

自动学习项目中，如何进行增量训练？ - AI开发平台ModelArts

如何在Notebook中安装外部库？ - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

使用ModelArts Studio的Qwen2-7B模型框架实现对话问答 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

通过Function Calling扩展大语言模型对外部环境的理解 - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线