搜索_华为云

使用DCS实现排行榜功能 - 分布式缓存服务 DCS

使用DCS实现排行榜功能方案概述在网页和APP中经常需要用到榜单的功能，对某个key-value的列表进行降序显示。当操作和查询并发大的时候，使用传统数据库就会遇到性能瓶颈，造成较大的时延。使用分布式缓存服务（DCS）的Redis版本，可以实现一个商品热销排行榜的功能。它的优势在于：

帮助中心 > 分布式缓存服务 DCS > 最佳实践 > 业务应用
创建Notebook并执行性能诊断任务 - AI开发平台ModelArts

Adviso主页面提交性能诊断任务如果您的NPU性能数据存放在OBS上，Source选择OBS，Path输入OBS地址，格式如obs://bucket1/profiling_dir1，单击Submit按钮。界面参考下图。图4 分析OBS上的性能数据如果您的NPU性能数据存放在Not

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
准备GPU虚拟化资源 - 云容器引擎 CCE

准备GPU虚拟化资源 CCE GPU虚拟化采用自研xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。本文介绍如何在GPU节点上实现GPU的调度和隔离能力。前提条件配置支持版本集群版本 v1.23.8-r0、v1.25

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
Profiling数据采集 - AI开发平台ModelArts

以保证采集单个Step迭代的Profiling数据。更多信息，请参见Ascend PyTorch Profiler接口采集。父主题：性能调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型Pytorch迁移与精度性能调优 > 性能调优
T4 GPU设备显示异常 - 弹性云服务器 ECS

T4 GPU设备显示异常问题描述使用NVIDIA Tesla T4 GPU的云服务器，例如Pi2或G6规格，执行nvidia-smi命令查看GPU使用情况时，显示如下： No devices were found 原因分析 NVIDIA Tesla T4 GPU是NVIDIA的新版本，默认使用并开启GSP

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU驱动故障
Dit模型Pytorch迁移与精度性能调优 - AI开发平台ModelArts

Dit模型Pytorch迁移与精度性能调优场景介绍及环境准备训练迁移适配精度对齐性能调优父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
基于advisor的昇腾训练性能自助调优指导 - AI开发平台ModelArts

基于advisor的昇腾训练性能自助调优指导昇腾性能自动诊断工具使用说明基于ModelArts performance advisor插件的昇腾PyTorch性能调优步骤创建Notebook并执行性能诊断任务 advisor分析报告html文件详解父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
手动安装GPU加速型ECS的GRID驱动 - 弹性云服务器 ECS

了解更多GRID驱动信息请参考NVIDIA vGPU驱动。 GPU直通型实例：根据需求选择GRID驱动版本。 GPU虚拟化型实例：请严格按照下表选择合适的驱动版本下载使用。表1 GPU实例类型支持的GRID驱动版本实例类型 GPU挂载方式操作系统驱动版本 CPU架构 G6v GPU虚拟化型实例 CentOS

帮助中心 > 弹性云服务器 ECS > 用户指南 > 实例 > 管理GPU加速型ECS的GPU驱动
CCE推荐的GPU驱动版本列表 - 云容器引擎 CCE

合适的NVIDIA驱动版本。 GPU驱动支持列表当前GPU驱动支持列表仅针对1.2.28及以上版本的GPU插件。如果您需要安装最新版本的GPU驱动，请将您的GPU插件升级到最新版本。表1 GPU驱动支持列表 GPU型号支持集群类型机型规格操作系统 Huawei Cloud

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
MA-Advisor和Ascend-Insigh工具使用指导 - AI开发平台ModelArts

MA-Advisor和Ascend-Insigh工具使用指导 MA-Advisor：一款昇腾迁移性能问题自动诊断工具，能快速分析和诊断昇腾场景下PyTorch性能劣化问题并给出相关调优建议。详细信息，请参见昇腾性能自动诊断工具使用说明。 Ascend-Insight：对于高阶的调优用户，可以使用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
GPU监控指标说明 - 云容器引擎 CCE

Gauge % GPU进程 GPU各进程编码使用率 - cce_gpu_decoder_utilization_process Gauge % GPU进程 GPU各进程解码使用率 - 内存指标 cce_gpu_memory_used Gauge bytes GPU卡 GPU显存使用量说明：

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
手动更新GPU节点驱动版本 - 云容器引擎 CCE

置为GPU插件配置中指定的版本。如果需要稳定升级GPU节点驱动，推荐使用通过节点池升级节点的GPU驱动版本。前提条件需要使用kubectl连接到集群，详情请参见通过kubectl连接集群。操作步骤如果您需要使用指定的NVIDIA驱动版本，可以在节点安装新版本GPU驱动，操作步骤如下：

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
昇腾性能自动诊断工具使用说明 - AI开发平台ModelArts

Standard平台的开发环境和模型训练集成了自动诊断工具msprof-analyze，能快速分析和诊断昇腾场景下PyTorch性能劣化问题并给出相关调优建议。在过往性能调优场景中，如果性能profiling数据在OBS上，通常需要将TB或者GB级别的profiling数据下载至本地后才能使用msp

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
GPU视图 - 云容器引擎 CCE
GPU视图 - 云容器引擎 CCE

GPU视图 GPU资源指标可以衡量GPU性能和使用情况，包括GPU的利用率、温度、显存等方面的监控数据，帮助您掌控GPU运行状况。指标说明图1 GPU资源指标表1 GPU图表说明图表名称单位说明集群-显存使用率百分比集群的显存使用率计算公式：集群内容器显存使用总量/集群内显存总量

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？场景描述本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。前提条件 GPU A系列裸金属服务器已经安装了IB驱动。（网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
兼容Kubernetes默认GPU调度模式 - 云容器引擎 CCE

etes默认GPU调度模式（支持使用nvidia.com/gpu资源的工作负载）。在工作负载中声明nvidia.com/gpu资源（即配置nvidia.com/gpu为小数，例如0.5）时将通过虚拟化GPU提供，实现GPU显存隔离，按照设定值的百分比为容器分配GPU显存（例如分配0

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
移动端排行榜与增值权益设置 - 教育

移动端排行榜与增值权益设置移动端排行榜设置学员在手机端是否可以看到学分、积分数据操作路径：运营-业务运营工具-移动端排行榜图1 入口展示增值权益设置查看酷来画账号分配情况图2 增值权益设置父主题：运营

 帮助中心 > 教育 > 酷学院企业培训解决方案实践 > 实施步骤 > 用户操作指南 > 运营
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPU相关问题 - AI开发平台ModelArts

GPU相关问题日志提示"No CUDA-capable device is detected" 日志提示“RuntimeError: connect() timed out” 日志提示“cuda runtime error (10) : invalid device ordinal

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
GPU调度概述 - 华为云UCS
GPU调度概述 - 华为云UCS

GPU调度概述工作负载支持使用节点GPU资源，GPU资源使用可以分为如下两种模式： GPU静态分配（共享/独享）：按比例给Pod分配GPU显卡资源，支持独享（分配单张/多张显卡）和共享（部分显卡）方式。 GPU虚拟化：UCS On Premises GPU采用xGPU虚拟化技术

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度

总条数： 10000

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用DCS实现排行榜功能 - 分布式缓存服务 DCS

创建Notebook并执行性能诊断任务 - AI开发平台ModelArts

准备GPU虚拟化资源 - 云容器引擎 CCE

Profiling数据采集 - AI开发平台ModelArts

T4 GPU设备显示异常 - 弹性云服务器 ECS

Dit模型Pytorch迁移与精度性能调优 - AI开发平台ModelArts

基于advisor的昇腾训练性能自助调优指导 - AI开发平台ModelArts

手动安装GPU加速型ECS的GRID驱动 - 弹性云服务器 ECS

CCE推荐的GPU驱动版本列表 - 云容器引擎 CCE

MA-Advisor和Ascend-Insigh工具使用指导 - AI开发平台ModelArts

GPU监控指标说明 - 云容器引擎 CCE

手动更新GPU节点驱动版本 - 云容器引擎 CCE

昇腾性能自动诊断工具使用说明 - AI开发平台ModelArts

GPU视图 - 云容器引擎 CCE

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

兼容Kubernetes默认GPU调度模式 - 云容器引擎 CCE

移动端排行榜与增值权益设置 - 教育

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

GPU相关问题 - AI开发平台ModelArts

GPU调度概述 - 华为云UCS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线