搜索_华为云

恢复归档或深度归档存储对象 - 对象存储服务 OBS

用户授权。注意事项归档存储或深度归档存储的对象正在恢复的过程中，不支持修改恢复方式，不允许暂停或删除恢复任务。数据恢复后，会产生一个标准存储类别的对象副本，即对象同时存在标准存储类别的对象副本和归档存储或深度归档存储类别的对象。归档存储或深度归档存储对象恢复完成时，对象的恢

 帮助中心 > 对象存储服务 OBS > 用户指南 > 对象管理 > 管理对象
如何获取Azure对象存储深度采集所需凭证？ - 迁移中心 MGC

如何获取Azure对象存储深度采集所需凭证？在对Azure云平台对象存储资源进行深度采集时，需要使用“存储账户”和“密钥”作为采集凭证，本节介绍获取Azure“存储账户”和“密钥”的方法。登录 Azure 门户中转到存储账户。在左侧导航栏选择“安全性和网络 > 访问密钥” ，即可看到“存储账户名称”和“密钥”。

帮助中心 > 迁移中心 MGC > 常见问题 > 资源采集
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

upyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题： GPU相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
msprobe精度比对 - AI开发平台ModelArts

msprobe精度比对精度比对功能主要针对两类场景的问题：同一模型，从CPU或GPU移植到NPU中存在精度下降问题，对比NPU芯片中的API计算数值与CPU或GPU芯片中的API计算数值，进行问题定位。同一模型，进行迭代（模型、框架版本升级或设备硬件升级）时存在的精度下降问

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
调度概述 - 云容器引擎 CCE
调度概述 - 云容器引擎 CCE

Kubernetes默认GPU调度可以指定Pod申请GPU的数量，支持申请设置为小于1的数量，实现多个Pod共享使用GPU。使用Kubernetes默认GPU调度 GPU虚拟化 GPU虚拟化能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度
Ubuntu内核与GPU驱动兼容性提醒 - 云容器引擎 CCE

Ubuntu内核与GPU驱动兼容性提醒检查项内容检查到集群中同时使用GPU插件和Ubuntu节点，提醒客户存在可能的兼容性问题。当Ubuntu内核版本在5.15.0-113-generic上时，GPU插件必须使用535.161.08及以上的驱动版本。解决方案您在升级后新创

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
为什么exec进入容器后执行GPU相关的操作报错？ - 云容器实例 CCI

为什么exec进入容器后执行GPU相关的操作报错？问题现象： exec进入容器后执行GPU相关的操作（例如nvidia-smi、使用tensorflow运行GPU训练任务等）报错“cannot open shared object file: No such file or directory”。

帮助中心 > 云容器实例 CCI > 常见问题 > 容器工作负载类
故障信息收集方法 - 弹性云服务器 ECS

cn-north-4.myhuaweicloud.com/release/script/diagnose_gpu.sh 执行bash diagnose_gpu.sh命令，将信息收集到信息文件diagnose_gpu_xxxxx.tar.gz进行自排查或工单联系技术支持。使用命令获取信息请参考表1。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
GPU/NPU Pod重建风险检查异常处理 - 云容器引擎 CCE

GPU/NPU Pod重建风险检查异常处理检查项内容检查当前集群升级重启kubelet时，节点上运行的GPU/NPU业务容器是否可能发生重建，造成业务影响。解决方案请确保在业务影响可控的前提下（如业务低峰期）进行集群升级，以消减业务容器重建带来的影响；如需帮助，请您提交工单联系运维人员获取支持。

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

upyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题： GPU相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
显卡故障诊断及处理方法 - 弹性云服务器 ECS

ERROR：执行nvidia-smi存在SRAM的ECC错误（V100显卡）如何处理GPU掉卡，执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 如何处理GPU散热异常，执行nvidia-smi命令发现温度过高如何处理驱动安装报错“Unable

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断
分页查询智能任务列表 - AI开发平台ModelArts

内置属性：图像尺寸（图像的宽度、高度、深度），类型为List[/topic/body/section/table/tgroup/tbody/row/entry/p/br {""}) (br]。列表中的第一个数字为宽度(像素)，第二个数字为高度(像素)，第三个数字为深度(深度可以没有，默认为3)，如[100

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
如何查询XID报错信息 - 弹性云服务器 ECS

用于标识GPU错误事件，提供GPU硬件、NVIDIA软件或您应用程序中的错误类型、错误位置、错误代码等信息。查询XID报错信息方法如下：登录弹性云服务器。执行以下命令，查看是否存在xid相关报错，保存回显结果。 dmesg | grep -i xid 若检查项GPU节点上的XID异常为空，说明无XID消息。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

可给出性能瓶颈的诊断和修改建议。当迁移开箱性能较低时，通过该工具给出的建议修改代码后，通常可提升10%~30%。执行pip install msprof-analyze 昇腾性能自动诊断工具使用说明 compare_tools 性能比对工具，将在GPU和NPU采集的Profi

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
Namespace和Network - 云容器实例 CCI

general-computing：通用计算型，支持创建含CPU资源的容器实例及工作负载，适用于通用计算场景。 gpu-accelerated：GPU型，支持创建含GPU资源的容器实例及工作负载，适用于深度学习、科学计算、视频处理等场景。假如上面Namespace定义的文件名称为ns.yaml，则执行kubectl

帮助中心 > 云容器实例 CCI > 开发指南
如何查询显卡在位信息 - 弹性云服务器 ECS

执行以下命令，查看显卡在位情况，确认是否和服务器规格显卡数一致，保存回显结果。 lspci | grep NV 如下图所示，可以看到有一张GPU显卡，且显卡是rev a1，状态正常；如果为rev ff或其他状态，则显卡可能故障。父主题：故障信息收集

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
云堡垒机可以免费使用吗？ - 云堡垒机 CBH

CBH提供了提供“50资产标准版”、“100资产标准版”、“100资产专业版”、“200资产标准版”、“200资产专业版”、“500资产标准版”、“500资产专业版”、“1000资产标准版”、“1000资产专业版”、“5000资产标准版”、“5000资产专业版”共十个版本，版本详细规格和性能说明请参考云堡垒机实例版本规格。

帮助中心 > 云堡垒机 CBH > 常见问题 > 计费、到期续费与退订
非硬件故障自恢复处理方法 - 弹性云服务器 ECS

非硬件故障自恢复处理方法如何处理Nouveau驱动未禁用导致的问题如何处理ECC ERROR：存在待隔离页问题如何处理升级内核后，驱动不可用问题如何处理GPU掉卡问题如何处理显卡ERR！问题如何处理用户自行安装NVIDIA驱动、CUDA软件，安装过程出错问题如何处理驱动兼容性问题如何处理可恢复的Xid故障问题

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断
如何处理infoROM错误 - 弹性云服务器 ECS

is corrupted at gpu 0000:00:0D.0”，并且用户业务已经受到影响。问题原因健全性检查没有通过，GPU驱动程序不会使用或信任其内容（某些内容未被使用）。问题影响可能影响ECC相关非易失数据的记录，导致本该隔离的GPU内存页面继续使用。处理方法如果用户业务暂未受损，则无需处理。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 显卡故障诊断及处理方法
场景介绍及环境准备 - AI开发平台ModelArts

代了U-Net，处理图像生成和去噪等任务。核心思想是通过Transformer的自注意力机制来捕捉序列中的依赖关系，从而提高生成图像的质量。研究表明，具有较高GFLOPs的DiT模型在图像生成任务中表现更好，尤其是在ImageNet 512×512和256×256的测试中，DiT-XL/2模型实现了2

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优

总条数： 9962

上一页
1
...
8
9
10
...
499
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

恢复归档或深度归档存储对象 - 对象存储服务 OBS

如何获取Azure对象存储深度采集所需凭证？ - 迁移中心 MGC

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

msprobe精度比对 - AI开发平台ModelArts

调度概述 - 云容器引擎 CCE

Ubuntu内核与GPU驱动兼容性提醒 - 云容器引擎 CCE

为什么exec进入容器后执行GPU相关的操作报错？ - 云容器实例 CCI

故障信息收集方法 - 弹性云服务器 ECS

GPU/NPU Pod重建风险检查异常处理 - 云容器引擎 CCE

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

显卡故障诊断及处理方法 - 弹性云服务器 ECS

分页查询智能任务列表 - AI开发平台ModelArts

如何查询XID报错信息 - 弹性云服务器 ECS

ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

Namespace和Network - 云容器实例 CCI

如何查询显卡在位信息 - 弹性云服务器 ECS

云堡垒机可以免费使用吗？ - 云堡垒机 CBH

非硬件故障自恢复处理方法 - 弹性云服务器 ECS

如何处理infoROM错误 - 弹性云服务器 ECS

场景介绍及环境准备 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线