搜索_华为云

Namespace和Network - 云容器实例 CCI

general-computing：通用计算型，支持创建含CPU资源的容器实例及工作负载，适用于通用计算场景。 gpu-accelerated：GPU型，支持创建含GPU资源的容器实例及工作负载，适用于深度学习、科学计算、视频处理等场景。假如上面Namespace定义的文件名称为ns.yaml，则执行kubectl

帮助中心 > 云容器实例 CCI > API参考 > 附录
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决问题现象在华为云使用GPU裸金属服务器时，服务器绑定EIP（华为云弹性IP服务）后，出现无法ping通弹性公网IP现象。原因分析查看当前GPU裸金属服务器的安全组的入方向规则的配置，发现仅开通了TCP协议的22端口。 ping命令

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
标准策略、极速策略和深度策略有哪些区别？ - 漏洞管理服务 CodeArts Inspector

“标准策略”：扫描的网站URL数量和耗时都介于“极速策略”和“深度策略”两者之间。有些接口只能在登录后才能访问，建议用户配置对应接口的用户名和密码，漏洞管理服务才能进行深度扫描。父主题：网站扫描类

 帮助中心 > 漏洞管理服务 CodeArts Inspector > 常见问题 > 网站扫描类
Dit模型PyTorch迁移与精度性能调优 - AI开发平台ModelArts

Dit模型PyTorch迁移与精度性能调优场景介绍及环境准备训练迁移适配精度对齐性能调优父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

nsor.to(device="cuda:7")"，将张量搬到了7号GPU卡上，超过了实际可用的ID号。如果cuda相关运算设置的卡ID号在所选规格范围内，但是依旧出现了上述报错。可能是该资源节点中存在GPU卡损坏的情况，导致实际能检测到的卡少于所选规格。处理方法建议直接根

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

x内核模块，它允许支持P2P(Peer-to-Peer)的NVIDIA GPU直接进行内存访问(DMA)。这意味着数据可以直接在多个GPU之间传输，而无需经过CPU或系统内存，这可以显著降低延迟并提高带宽。所以既然nccl-tests能正常测试，但是达不到预期，可能是nv_peer_mem异常。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
如何查询内核信息 - 弹性云服务器 ECS

如何查询内核信息查询内核信息的方法如下：登录弹性云服务器。执行以下命令，查看内核版本。 uname -r 执行以下命令，查看安装驱动时的内核版本。 Ubuntu：find /lib/modules -name nvidia.ko CentOS：find /usr/lib/modules

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
设置桶的多版本状态 - 对象存储服务 OBS

多版本功能可在用户意外覆盖或删除对象的情况下提供一种恢复手段。用户可以使用多版本功能来保存、检索和还原对象的各个版本，这样用户能够从意外操作或应用程序故障中轻松恢复数据。多版本功能还可用于数据保留和存档。默认情况下，桶没有设置多版本功能。当开启WORM开关后，桶默认开启了多版本功能，并且无法暂停。

帮助中心 > 对象存储服务 OBS > API参考 > API > 桶的高级配置
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决问题现象 GP Vnt1裸金属服务器，操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版)，经常遇到服务器重启后，操作系统内核无故升级，导致系统上原安装的nvidia-driver等软件无法使用，只能卸载重新安装。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
主机深度采集成功，部分采集规格信息缺失 - 迁移中心 MGC

主机深度采集成功，部分采集规格信息缺失问题描述进行主机深度采集后，在资源详情中查看采集的基本信息和规格信息，发现存在部分信息缺失的情况。问题分析出现该问题，可能是在安装MgC Agent（原Edge）主机上的Linux采集脚本时，UNIX换行符格式不正确。正常情况下，Li

帮助中心 > 迁移中心 MGC > 常见问题 > 资源采集
基于advisor的昇腾训练性能自助调优指导 - AI开发平台ModelArts

基于advisor的昇腾训练性能自助调优指导 advisor调优总体步骤创建诊断任务查看诊断报告父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
如何获取显卡ID - 弹性云服务器 ECS

如何获取显卡ID Linux操作系统获取显卡ID的方法如下：登录弹性云服务器。在任意路径下执行nvidia-smi命令。（CCE集群场景为/opt/cloud/cce/nvidia/bin目录下） Windows操作系统获取显卡ID的方法如下：进入到C:\Program Files\NVIDIA

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
msprobe API预检 - AI开发平台ModelArts

比对NPU和GPU预检结果。 msprobe -f pytorch api_precision_compare -npu /home/xxx/npu/accuracy_checking_details_{timestamp}.csv -gpu /home/xxx/gpu/accu

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

s/code/main.py”。超参当资源规格为单机多卡时，需要指定超参world_size和rank。当资源规格为多机时（即实例数大于 1），无需设置超参world_size和rank，超参会由平台自动注入。方式二：使用自定义镜像功能，通过torch.distributed

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
如何收集驱动安装信息 - 弹性云服务器 ECS

如何收集驱动安装信息收集驱动安装信息的方法如下：登录弹性云服务器。执行以下命令，检查是否禁用了nouveau驱动。 lsmod | grep nouveau 如果是驱动安装失败类问题，收集/var/log/nvidia-installer.log 驱动安装日志，并转储日志信息。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
如何收集NVIDIA日志 - 弹性云服务器 ECS

如何收集NVIDIA日志收集NVIDIA日志方法如下：登录弹性云服务器。在任意目录下执行以下命令。（如果是CCE场景，进入到/opt/cloud/cce/nvidia/bin目录后执行） sh nvidia-bug-report.sh 或 ./nvidia-bug-report

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 故障信息收集
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

经过对裸金属服务器排查，发现nvidia-drvier和cuda都已安装，并且正常运行。nvidia-fabricmanager服务可以使单节点GPU卡间互联，在多卡GPU机器上，出现这种问题可能是nvidia-fabricmanger异常导致。执行以下命令，查看NVIDIA和CUDA的版本，以及nvid

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
命名空间 - 云容器实例 CCI
命名空间 - 云容器实例 CCI

当前云容器实例提供“通用计算型”和“GPU加速型”两种类型的资源，创建命名空间时需要选择资源类型，后续创建的负载中容器就运行在此类型的集群上。通用计算型：支持创建含CPU资源的容器实例，适用于通用计算场景。 GPU加速型：支持创建含GPU资源的容器实例，适用于深度学习、科学计算、视频处理等场景。

帮助中心 > 云容器实例 CCI > 用户指南
超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

超过最大递归深度导致训练作业失败问题现象 ModelArts训练作业报错： RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析递归深度超过了Python默认的递归深度，导致训练失败。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
恢复归档存储或深度归档存储对象 - 对象存储服务 OBS

恢复归档存储或深度归档存储对象功能介绍如果要获取归档存储或深度归档存储对象的内容，需要先将对象恢复，然后再执行下载数据的操作。对象恢复后，会产生一个标准存储类型的对象副本，也就是说会同时存在标准存储类型的对象副本和归档存储或深度归档存储类型的对象，在恢复对象的保存时间到期后标准存储类型的对象副本会自动删除。

帮助中心 > 对象存储服务 OBS > API参考 > API > 对象操作

总条数： 9962

上一页
1
...
9
10
11
...
499
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Namespace和Network - 云容器实例 CCI

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

标准策略、极速策略和深度策略有哪些区别？ - 漏洞管理服务 CodeArts Inspector

Dit模型PyTorch迁移与精度性能调优 - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

如何查询内核信息 - 弹性云服务器 ECS

设置桶的多版本状态 - 对象存储服务 OBS

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

主机深度采集成功，部分采集规格信息缺失 - 迁移中心 MGC

基于advisor的昇腾训练性能自助调优指导 - AI开发平台ModelArts

如何获取显卡ID - 弹性云服务器 ECS

msprobe API预检 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

如何收集驱动安装信息 - 弹性云服务器 ECS

如何收集NVIDIA日志 - 弹性云服务器 ECS

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

命名空间 - 云容器实例 CCI

超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

恢复归档存储或深度归档存储对象 - 对象存储服务 OBS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线