搜索_华为云

训练作业找不到GPU - AI开发平台ModelArts

到GPU。处理方法根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7' 其中，0为服务器的GPU编号，可以为0，1，2，3等，表明对程序可见的GP

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
准备GPU资源 - 华为云UCS
准备GPU资源 - 华为云UCS

准备GPU资源本文介绍如何在使用GPU能力前所需要的基础软件、硬件规划与准备工作。基础规划配置支持版本集群版本 v1.25.15-r7及以上操作系统华为云欧拉操作系统 2.0 系统架构 X86 GPU类型 T4、V100 驱动版本 GPU虚拟化功能仅支持470.57

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
GPU驱动异常怎么办？ - 弹性云服务器 ECS

处理方法如果未安装GPU驱动，请重新安装GPU驱动。操作指导请参考：安装GPU驱动如果已安装驱动，但是驱动被卸载。执行history，查看是否执行过卸载操作。进入/var/log目录，查看是否有nvidia-uninstall.log日志，如果有说明GPU驱动已被卸载，请重新安装GPU驱动。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU驱动故障
GPU调度 - 华为云UCS
GPU调度 - 华为云UCS

GPU调度 GPU调度概述准备GPU资源创建GPU应用监控GPU资源父主题：管理本地集群

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群
简介 - AI开发平台ModelArts
简介 - AI开发平台ModelArts

ModelArts开发环境 ModelArts作为华为云上的AI开发平台，提供交互式云上开发环境，包含标准化昇腾算力资源和完整的迁移工具链，帮助用户完成昇腾迁移的调测过程，进一步可在平台上将迁移的模型一键部署成为在线服务向外提供推理服务，或者运行到自己的运行环境中。 MindSpore Lite 华为自

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
GPU计算型 - CloudPond云服务
GPU计算型 - CloudPond云服务

GPU计算型 GPU计算单元包含的计算资源主要适用于政企用户部署GPU密集型业务到CloudPond上使用的场景，对应华为云ECS的实例包含Pi系列，用户可根据机型规格情况选择对应的计算资源商品。具体规格请参考表1。表1 GPU计算单元名称算力配置描述 GPU计算单元-汇聚型-2Pi2

帮助中心 > CloudPond云服务 > 产品介绍 > 产品规格 > 计算资源规格
管理在线服务 - 推荐系统 RES
管理在线服务 - 推荐系统 RES

管理在线服务您可以对在线作业进行“编辑”、“启动”、“开通”、“停止”、“删除”等操作。您也可以通过单击在线服务名称查看在线服务的详细信息。编辑服务用户可以通过“编辑”在线服务修改该参数信息进行计算。生成的数据会覆盖原来的在线服务计算生成的数据。“部署中”的在线服务不支持编辑。操作步骤如下：

帮助中心 > 推荐系统 RES > 用户指南 > 用户指南（旧版） > 在线服务
创建GPU函数 - 函数工作流 FunctionGraph

创建GPU函数 GPU函数概述自定义镜像方式创建GPU函数定制运行时方式创建GPU函数父主题：创建函数

 帮助中心 > 函数工作流 FunctionGraph > 用户指南 > 创建函数
GPU实例故障分类列表 - 弹性云服务器 ECS

GPU实例故障分类列表 GPU实例故障的分类列表如表1所示。表1 GPU实例故障分类列表是否可恢复故障故障类型相关文档可恢复故障，可按照相关文档自行恢复镜像配置问题如何处理Nouveau驱动未禁用导致的问题 ECC错误如何处理ECC ERROR：存在待隔离页问题内核升级问题

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断
怎样查看GPU加速型云服务器的GPU使用率？ - 弹性云服务器 ECS

模式下，GPU同时用于计算和图形。仅在GPU服务器安装了GRID驱动时才可以切换至WDDM模式。关于TCC和WDDM，了解更多。方法二登录GPU加速型云服务器。下载gpu-Z并安装。打开gpu-z，选择“Sensors”即可查看GPU使用情况。图2 GPU使用率父主题：

帮助中心 > 弹性云服务器 ECS > 常见问题 > 操作系统相关问题
管理GPU加速型ECS的GPU驱动 - 弹性云服务器 ECS

管理GPU加速型ECS的GPU驱动 GPU驱动概述 Tesla驱动及CUDA工具包获取方式（推荐）自动安装GPU加速型ECS的GPU驱动（Linux）（推荐）自动安装GPU加速型ECS的GPU驱动（Windows）手动安装GPU加速型ECS的GRID驱动手动安装GPU加速型ECS的Tesla驱动

 帮助中心 > 弹性云服务器 ECS > 用户指南 > 实例
使用Nvidia-smi工具 - 云容器实例 CCI

使用Nvidia-smi工具为了支持查看GPU使用情况的场景，需要在镜像中注入nvidia-smi工具，根据购买的专属节点GPU驱动版本选择不同的nvidia-smi二进制文件。 nvidia-smi获取方式。该二进制文件可以在nvidia官网，根据CUDA Toolkit版

 帮助中心 > 云容器实例 CCI > 最佳实践 > GPU负载
GPU视图 - 云容器引擎 CCE
GPU视图 - 云容器引擎 CCE

计算公式：节点上容器显存使用总量/节点上显存总量 GPU卡-显存使用量字节显卡上容器显存使用总量 GPU卡-算力使用率百分比每张GPU卡的算力使用率计算公式：显卡上容器算力使用总量/显卡的算力总量 GPU卡-温度摄氏度每张GPU卡的温度 GPU-显存频率赫兹每张GPU卡的显存频率 GPU卡-PCle带宽

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

wikipedia、diffusers github、Stable Diffusion with diffusers。推理业务迁移到昇腾的通用流程，可参考GPU推理业务迁移至昇腾的通用指导。由于Huggingface网站的限制，访问Stable Diffusion链接时需使用代理服务器，否则可能无法访问网站。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
G系列弹性云服务器GPU驱动故障 - 弹性云服务器 ECS

G系列弹性云服务器GPU驱动故障问题描述在Windows系统的G系列弹性云服务器中，无法打开NVIDIA 控制面板，GPU驱动无法使用或GPU驱动显示异常。可能原因 GPU驱动状态异常。处理方法打开Windows设备管理器，在显示适配器中查看GPU驱动状态。 GPU驱动显示正常

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU驱动故障
如何避免非GPU/NPU负载调度到GPU/NPU节点？ - 云容器引擎 CCE

如何避免非GPU/NPU负载调度到GPU/NPU节点？问题现象当集群中存在GPU/NPU节点和普通节点混合使用的场景时，普通工作负载也可以调度到GPU/NPU节点上，可能出现GPU/NPU资源未充分利用的情况。问题原因由于GPU/NPU节点同样提供CPU、内存资源，在一般

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 调度策略
如何在浏览器中在线预览OBS中的对象？ - 对象存储服务 OBS

OBS桶域名。验证对象是否可以在线预览。配置成功后，将“http://自定义域名/对象访问路径”拼接成的链接分享给用户，用户可以在浏览器中通过此链接直接预览文件。如仍不能在线预览，请检查对象元数据ContentType值是否是浏览器支持的在线展示类型。例如对象是一个mp4

帮助中心 > 对象存储服务 OBS > 常见问题 > 桶和对象相关
GPU设备检查 - 智能边缘平台 IEF

GPU设备检查功能检查节点是否存在gpu设备，gpu驱动是否安装且运行正常。语法 edgectl check gpu 参数说明无使用示例检查节点GPU设备： edgectl check gpu 检查成功返回结果： +-----------------------+ |

帮助中心 > 智能边缘平台 IEF > Edgectl使用指南 > edgectl 命令详情 > 单独项检查
GPU推理业务迁移至昇腾的通用指导 - AI开发平台ModelArts

GPU推理业务迁移至昇腾的通用指导简介昇腾迁移快速入门案例迁移评估环境准备模型适配精度校验性能调优迁移过程使用工具概览常见问题推理业务迁移评估表父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

2个推理模型使用TensorRT框架，5个使用Triton框架。通过stable-diffusion的WebUI提供AIGC推理服务。 - GPU卡的类型 Vnt1/Ant1/Ant03/Tnt004等。例如： 20卡Ant1，运行Bert Large推理。 10卡Tnt004运行YOLOv5。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导

总条数： 6312

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

0/200

提交反馈取消