检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用户授权。 注意事项 归档存储或深度归档存储的对象正在恢复的过程中,不支持修改恢复方式,不允许暂停或删除恢复任务。 数据恢复后,会产生一个标准存储类别的对象副本,即对象同时存在标准存储类别的对象副本和归档存储或深度归档存储类别的对象。归档存储或深度归档存储对象恢复完成时,对象的恢
如何获取Azure对象存储深度采集所需凭证? 在对Azure云平台对象存储资源进行深度采集时,需要使用“存储账户”和“密钥”作为采集凭证,本节介绍获取Azure“存储账户”和“密钥”的方法。 登录 Azure 门户中转到存储账户。 在左侧导航栏选择“安全性和网络 > 访问密钥” ,即可看到“存储账户名称”和“密钥”。
upyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。 父主题: GPU相关问题
msprobe精度比对 精度比对功能主要针对两类场景的问题: 同一模型,从CPU或GPU移植到NPU中存在精度下降问题,对比NPU芯片中的API计算数值与CPU或GPU芯片中的API计算数值,进行问题定位。 同一模型,进行迭代(模型、框架版本升级或设备硬件升级)时存在的精度下降问
Kubernetes默认GPU调度可以指定Pod申请GPU的数量,支持申请设置为小于1的数量,实现多个Pod共享使用GPU。 使用Kubernetes默认GPU调度 GPU虚拟化 GPU虚拟化能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静
Ubuntu内核与GPU驱动兼容性提醒 检查项内容 检查到集群中同时使用GPU插件和Ubuntu节点,提醒客户存在可能的兼容性问题。当Ubuntu内核版本在5.15.0-113-generic上时,GPU插件必须使用535.161.08及以上的驱动版本。 解决方案 您在升级后新创
为什么exec进入容器后执行GPU相关的操作报错? 问题现象: exec进入容器后执行GPU相关的操作(例如nvidia-smi、使用tensorflow运行GPU训练任务等)报错“cannot open shared object file: No such file or directory”。
cn-north-4.myhuaweicloud.com/release/script/diagnose_gpu.sh 执行bash diagnose_gpu.sh命令,将信息收集到信息文件diagnose_gpu_xxxxx.tar.gz进行自排查或工单联系技术支持。 使用命令获取信息请参考表1。
GPU/NPU Pod重建风险检查异常处理 检查项内容 检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。 解决方案 请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重建带来的影响; 如需帮助,请您提交工单联系运维人员获取支持。
upyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。 父主题: GPU相关问题
ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 如何处理驱动安装报错“Unable
内置属性:图像尺寸(图像的宽度、高度、深度),类型为List[/topic/body/section/table/tgroup/tbody/row/entry/p/br {""}) (br]。列表中的第一个数字为宽度(像素),第二个数字为高度(像素),第三个数字为深度(深度可以没有,默认为3),如[100
用于标识GPU错误事件,提供GPU硬件、NVIDIA软件或您应用程序中的错误类型、错误位置、错误代码等信息。 查询XID报错信息方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在xid相关报错,保存回显结果。 dmesg | grep -i xid 若检查项GPU节点上的XID异常为空,说明无XID消息。
可给出性能瓶颈的诊断和修改建议。当迁移开箱性能较低时,通过该工具给出的建议修改代码后,通常可提升10%~30%。 执行pip install msprof-analyze 昇腾性能自动诊断工具使用说明 compare_tools 性能比对工具,将在GPU和NPU采集的Profi
general-computing:通用计算型,支持创建含CPU资源的容器实例及工作负载,适用于通用计算场景。 gpu-accelerated:GPU型,支持创建含GPU资源的容器实例及工作负载,适用于深度学习、科学计算、视频处理等场景。 假如上面Namespace定义的文件名称为ns.yaml,则执行kubectl
执行以下命令,查看显卡在位情况,确认是否和服务器规格显卡数一致,保存回显结果。 lspci | grep NV 如下图所示,可以看到有一张GPU显卡,且显卡是rev a1,状态正常;如果为rev ff或其他状态,则显卡可能故障。 父主题: 故障信息收集
CBH提供了提供“50资产标准版”、“100资产标准版”、“100资产专业版”、“200资产标准版”、“200资产专业版”、“500资产标准版”、“500资产专业版”、“1000资产标准版”、“1000资产专业版”、“5000资产标准版”、“5000资产专业版”共十个版本,版本详细规格和性能说明请参考云堡垒机实例版本规格。
非硬件故障自恢复处理方法 如何处理Nouveau驱动未禁用导致的问题 如何处理ECC ERROR:存在待隔离页问题 如何处理升级内核后,驱动不可用问题 如何处理GPU掉卡问题 如何处理显卡ERR!问题 如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 如何处理驱动兼容性问题 如何处理可恢复的Xid故障问题
is corrupted at gpu 0000:00:0D.0”,并且用户业务已经受到影响。 问题原因 健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,导致本该隔离的GPU内存页面继续使用。 处理方法 如果用户业务暂未受损,则无需处理。
代了U-Net,处理图像生成和去噪等任务。核心思想是通过Transformer的自注意力机制来捕捉序列中的依赖关系,从而提高生成图像的质量。研究表明,具有较高GFLOPs的DiT模型在图像生成任务中表现更好,尤其是在ImageNet 512×512和256×256的测试中,DiT-XL/2模型实现了2