搜索_华为云

已找到以下 10000 条记录

msprobe API预检 - AI开发平台ModelArts

比对NPU和GPU预检结果。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
故障信息收集方法 - 弹性云服务器 ECS

命令，将信息收集到信息文件diagnose_gpu_xxxxx.tar.gz进行自排查或工单联系技术支持。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
GPU与Cuda
GPU与Cuda

GPU专为图像处理设计，存储系统实际上是一个二维的分段存储空间，包括一个区段号（从中读取图像）和二维地址（图像中的X、Y坐标）。GPU采用了数量众多的计算单元和超长的流水线，但只有非常简单的控制逻辑并省去了Cache缓存。

开发者 > 博客

作者： qinggedada

发表时间： 2020-08-11 17:46:46

7676

0
Graph mode 下GPU训练失败
Graph mode 下GPU训练失败

在linux+GPU的环境下训练VGG16，CPU模式下运行正常，GPU提示如下错误代码============== Starting Training ==============[WARNING] PRE_ACT(20601,python):2021-04-25-10:57:45.151.017

开发者 > 其他

作者：大哥大哥大

1471

3
pytorch指定gpu
pytorch指定gpu

=0,1,2,3 python xxx.py来设置该程序可见的gpu 2.

开发者 > 博客

作者：风吹稻花香

发表时间： 2021-06-05 14:55:21

1715

0
根据GPU/NPU卡信息定位使用该卡的Pod - 云容器引擎 CCE

根据GPU/NPU卡信息定位使用该卡的Pod 在CCE中使用GPU/NPU卡时，无法直接获取到使用该卡的Pod。您可以根据GPU/NPU卡的信息，通过kubectl命令行操作筛选Pod，以便在GPU/NPU卡故障时能够及时将Pod驱逐。

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 调度策略
pytorch 同步gpu
pytorch 同步gpu

pytorch 同步gpu import torch a = torch.tensor([[1, 2, 3],[4, 5, 6]]) b = torch.tensor([[2, 2, 2], [3, 3, 3], [3, 3, 3

开发者 > 博客

作者：风吹稻花香

发表时间： 2021-11-18 15:35:30

945

0
msprobe精度比对 - AI开发平台ModelArts

首先通过在PyTorch训练脚本中插入dump接口，跟踪计算图中算子的前向传播与反向传播时的输入与输出，然后再使用子命令compare进行比对生成比对表格。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
显卡故障诊断及处理方法 - 弹性云服务器 ECS

虚拟机故障，在message日志中发现存在Xid报错父主题： GPU实例故障自诊断

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断
msprobe梯度监控 - AI开发平台ModelArts

"比对结果输出目录") 最终生成结果为similarities.csv表示每个Step各个权重参数两次比对相似度值，以及 {param_name}.png和summary_similarities.png以折线图方式表示各个

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
为什么exec进入容器后执行GPU相关的操作报错？ - 云容器实例 CCI

为什么exec进入容器后执行GPU相关的操作报错？

帮助中心 > 云容器实例 CCI > 常见问题 > 容器工作负载类
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU/NPU Pod重建风险检查异常处理 - 云容器引擎 CCE

GPU/NPU Pod重建风险检查异常处理检查项内容检查当前集群升级重启kubelet时，节点上运行的GPU/NPU业务容器是否可能发生重建，造成业务影响。

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
GPU内存分配——GPU编程
GPU内存分配——GPU编程

每个线程都有自己的私有本地内存（Local Memory）和Resigter每个线程块都包含共享内存（Shared Memory）,可以被线程中所有的线程共享，其生命周期与线程块一致所有的线程都可以访问全局内存（Global Memory）只读内存块：常量内存（Constant Memory

开发者 > 其他

作者： scu-w

755

2
GPU科普系列之Nvidia最新GPU H200
GPU科普系列之Nvidia最新GPU H200

一、背景北京时间2023.11.13日，Supercomputing 2023大会上Nvidia推出全新一代GPU H200,预计明年第二季度量产。我们对H系列的GPU认知还停留在10.23日开始制裁H100 H800 A100 A800 L40S芯片对国内的出口。

开发者 > 博客

作者：可以交个朋友

发表时间： 2023-12-15 16:35:36

75

0
tensorflow安装GPU版本
tensorflow安装GPU版本

Computing Toolkit\CUDA\v10.0下的lib，bin，include文件夹下） 5.下面添加cudnn的环境变量，先新建一个系统变量，如下图，然后在系统变量的path下进行编辑，新建如第二张图的两个解析路径。

开发者 > 博客

作者：人类群星闪耀时

发表时间： 2022-08-23 03:51:48

262

0
如何查询显卡详细信息 - 弹性云服务器 ECS

如何查询显卡详细信息查询指定显卡的详细信息登录弹性云服务器。执行以下命令，查询指定显卡的详细信息。 nvidia-smi –q –i ${显卡ID} 查询所有显卡的详细信息登录弹性云服务器。执行以下命令，所有显卡的详细信息。 nvidia-smi -q 执行结果示例如下：

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
【mindspore】【算子不支持GPU】Unsupported op [Ceil] on GPU

【功能模块】在训练时报错，提示算子不支持gpu类型【操作步骤&问题现象】1、开始训练，加载数据，走到train时就报错【截图信息】[EXCEPTION] DEVICE(35811,7f3f576f62c0,python):2022-03-03-07:28:44.866.790 [mindspore

开发者 > 其他

作者： pollar

958

3
GPU产品介绍

GPU产品介绍

GPU加速云服务器能够提供优秀的浮点计算能力，从容应对高实时、高并发的海量计算场景。P系列适合于深度学习，科学计算，CAE等；G系列适合于3D动画渲染，CAD等

开发者 > 视频

播放量 9065
如何查询显卡在位信息 - 弹性云服务器 ECS

lspci | grep NV 如下图所示，可以看到有一张GPU显卡，且显卡是rev a1，状态正常；如果为rev ff或其他状态，则显卡可能故障。父主题：故障信息收集

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集

总条数： 10000

上一页
1
...
8
9
10
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

msprobe API预检 - AI开发平台ModelArts

故障信息收集方法 - 弹性云服务器 ECS

GPU与Cuda

Graph mode 下GPU训练失败

pytorch指定gpu

根据GPU/NPU卡信息定位使用该卡的Pod - 云容器引擎 CCE

pytorch 同步gpu

msprobe精度比对 - AI开发平台ModelArts

显卡故障诊断及处理方法 - 弹性云服务器 ECS

msprobe梯度监控 - AI开发平台ModelArts

为什么exec进入容器后执行GPU相关的操作报错？ - 云容器实例 CCI

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU/NPU Pod重建风险检查异常处理 - 云容器引擎 CCE

GPU内存分配——GPU编程

GPU科普系列之Nvidia最新GPU H200

tensorflow安装GPU版本

如何查询显卡详细信息 - 弹性云服务器 ECS

【mindspore】【算子不支持GPU】Unsupported op [Ceil] on GPU

GPU产品介绍

如何查询显卡在位信息 - 弹性云服务器 ECS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线