搜索_华为云

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

Gallery仓库在服务器执行如下命令，可以将AI Gallery仓库的所有文件下载到服务器的缓存目录下。 gallery-cli download {repo_id} 如下所示，表示下载AI Gallery仓库“test_cli_model1”到服务器的缓存目录“/test”下，当回显“100%”时表示下载完成。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
从MRS导入数据到ModelArts数据集 - AI开发平台ModelArts

首先需要选择已有的MRS集群，并从HDFS文件列表选择文件名称或所在目录，导入文件的列数需与数据集schema一致。MRS的详细功能说明，请参考MRS用户指南。图1 从MRS导入数据集群名称：系统自动将当前账号下的MRS集群展现在此列表中，但是流式集群不支持导入操作。请在下拉框中选择您所需的集群。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
从DWS导入数据到ModelArts数据集 - AI开发平台ModelArts

选择您所需的DWS集群。数据库名称：根据选择的DWS集群，填写数据所在的数据库名称。表名称：根据选择的数据库，填写数据所在的表。用户名：输入DWS集群管理员用户的用户名。密码：输入DWS集群管理员用户的密码。从DWS导入数据，需要借助DLI的功能，如果用户没有访问DLI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
在Workflow中使用大数据能力（DLI/MRS） - AI开发平台ModelArts

该节点通过调用MRS服务，提供大数据集群计算能力。主要用于数据批量处理、模型训练等场景。应用场景需要使用MRS Spark组件进行大量数据的计算时，可以根据已有数据使用该节点进行训练计算。使用案例在华为云MRS服务下查看自己账号下可用的MRS集群，如果没有，则需要创建，当前需要集群有Spark组件，安装时，注意勾选上。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > Workflow高阶能力
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决问题现象 GP Vnt1裸金属服务器，操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版)，经常遇到服务器重启后，操作系统内核无故升级，导致系统上原安装的nvidia-driver等软件无法使用，只能卸载重新安装。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
配置kubectl工具 - AI开发平台ModelArts

kubectl是Kubernetes集群的命令行工具，配置kubectl后，您可通过kubectl命令操作Kubernetes集群。本文介绍如何配置kubectl工具，操作步骤如下。登录ModelArts管理控制台，在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”，进入“弹性集群 Cluster”页面，选择“Lite

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
使用Gallery CLI配置工具上传文件 - AI开发平台ModelArts

468675/test_cli_model1”，则该资产的“repo_id”为“ur5468675/test_cli_model1”。图1 复制完整资产名称获取待上传的文件名获取待上传的文件在服务器的绝对路径。上传单个文件在服务器执行如下命令，可以将服务器上的文件上传到AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
创建资源池失败 - AI开发平台ModelArts

创建失败/变更失败登录ModelArts管理控制台，在左侧导航栏中选择“AI专属资源池 > 弹性集群 Cluster”，进入“弹性集群 Cluster”页面。您可以通过单击“购买AI专属集群”右侧的“操作记录”，查看当前处于失败状态的资源池信息。图1 创建失败资源池信息鼠标悬停

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
重置节点后无法正常使用？ - AI开发平台ModelArts

在ModelArts侧进行节点重置后，modelarts-os会向节点添加准入污点，进行节点准入，而因为集群volcano没有污点容忍，且集群内只有一个节点，导致volcano无法启动，进而导致modelarts-os节点上管理污点的maos-node-agent容器无法启动，使得污点无法被自动清理。处理方法（

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
工具介绍及准备工作 - AI开发平台ModelArts

eval_dataset: gsm8k_test 样例yaml配置文件结构分为 base块：基础配置块 ModelName块：该模型所需配置的参数，如qwen2.5-7b块样例截图如下：开始训练测试，具体步骤参考训练性能测试或训练精度测试，根据实际情况决定。父主题：训练benchmark工具

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
什么是ModelArts - AI开发平台ModelArts

箱即用，对预置大模型进行二次开发，用于生产商用。 ModelArts Lite-Server 面向云主机资源型用户，基于裸金属服务器进行封装，可以通过弹性公网IP直接访问操作服务器。适用于已经自建AI开发平台，仅有算力需求的用户，提供高性价比的AI算力，并预装主流AI开发套件以及自研的加速插件。

帮助中心 > AI开发平台ModelArts > 产品介绍
工具介绍及准备工作 - AI开发平台ModelArts

eval_dataset: gsm8k_test 样例yaml配置文件结构分为 base块：基础配置块 ModelName块：该模型所需配置的参数，如qwen2.5-7b块样例截图如下：开始训练测试，具体步骤参考训练性能测试或训练精度测试，根据实际情况决定。父主题：训练benchmark工具

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

s申请更多资源。图5 报错信息 ECS、BMS节点创建失败？查看资源池失败报错信息：包含错误码，如：Ecs.0000时，可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。包含错误码，如：BMS.0001时，可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

Standard上运行GPU多机多卡训练作业操作流程准备工作：购买服务资源（VPC/SFS/OBS/SWR/ECS）配置权限创建专属资源池（打通VPC） ECS服务器挂载SFS Turbo存储在ECS中设置ModelArts用户可读权限安装和配置OBS命令行工具（可选）工作空间配置模型训练：

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

Server-Sent Events（SSE）是一种服务器向客户端推送数据的技术，它是一种基于HTTP的推送技术，服务器可以向客户端推送事件。这种技术通常用于实现服务器向客户端推送实时数据，例如聊天应用、实时新闻更新等。 SSE主要解决了客户端与服务器之间的单向实时通信需求（例如ChatGP

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
ECS获取基础镜像 - AI开发平台ModelArts

ECS获取基础镜像 Step1 登录ECS服务器根据创建ECS服务器创建完成ECS服务器后，单击“远程登录”，可使用华为CloudShell远程登录。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。 Step2 创建镜像组织在SWR服务页面创建镜像组织。图1

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

# 模型验证，设置模型为验证模式，加载验证数据，计算损失函数和准确率 def test(model, device, test_loader): model.eval() test_loss = 0 correct = 0 with torch.no_grad():

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练
各模型支持的最小卡数和最大序列 - AI开发平台ModelArts

卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 附录

总条数： 1154

上一页
1
...
5
6
7
...
58
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

从MRS导入数据到ModelArts数据集 - AI开发平台ModelArts

从DWS导入数据到ModelArts数据集 - AI开发平台ModelArts

在Workflow中使用大数据能力（DLI/MRS） - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

配置kubectl工具 - AI开发平台ModelArts

使用Gallery CLI配置工具上传文件 - AI开发平台ModelArts

创建资源池失败 - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

ECS获取基础镜像 - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

各模型支持的最小卡数和最大序列 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线