检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的
针对Intel处理器芯片存在的Meltdown和Spectre安全漏洞,应该如何规避? 问题描述 北京时间1月3日,Intel处理器芯片被曝出存在严重的Meltdown和Spectre安全漏洞,漏洞详情如下: 漏洞名称:Intel处理器存在严重芯片级漏洞 漏洞编号:CVE-201
GPU加速云服务器出现NVIDIA内核崩溃,如何解决? 问题描述 GPU加速型云服务器在运行过程中发生crash,重启云服务器后检查日志,发现没有打印NVIDIA驱动堆栈日志。 图1 堆栈日志信息 可能原因 云服务器在运行过程中遇到NVIDIA官方驱动bug,导致云服务器内核崩溃。
TOPS 机器学习、深度学习、训练推理、科学计算、地震分析、计算金融学、渲染、多媒体编解码。 支持开启/关闭超线程功能,详细内容请参见开启/关闭超线程。 推理加速型 Pi1 NVIDIA P4(GPU直通) 2560 5.5TFLOPS 单精度浮点计算 机器学习、深度学习、训练推理、科
如何处理GPU掉卡问题 问题描述 执行nvidia-smi命令查询到的显卡的数量较实际规格对应的显卡数量少。 如上图所示,执行nvidia-smi命令查询到7张显卡,实际该机型应有8张显卡。 判断方式 执行以下命令,显卡的数量与实际规格对应的显卡数量一致,且显卡在位状态正常(rev
如何处理升级内核后,驱动不可用问题 问题描述 客户执行nvidia-smi,报错failded to initialize NVML: Driver/library version mismatch。 客户执行nvidia-smi,报错NVIDIA-SMI has failed because
如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 问题描述 用户在Windows设备管理器显示适配器中查询显卡属性,发现设备状态中存在错误“由于该设备有问题,Windows已将其停止”。 判断方式 确认用户发生问题时的操作,是否有出现显存OOM。 如果
3D渲染、图形工作站、游戏加速 付费使用,需要购买License,满足图形图像类应用加速用途。 Tesla驱动 不需要 支持 不支持 不支持 不支持 科学计算、深度学习训练和推理 通常搭配使用NVIDIA CUDA SDK,可免费下载使用,满足通用计算类应用加速用途。 父主题: 管理GPU加速型ECS的GPU驱动
停售的实例规格),建议还在使用XEN实例的客户迁移至更新的产品系列上,以获取更优的性能,以及更高的可靠性。 迁移准备 如何判断是否在使用XEN实例 可以通过判断当前使用的规格名称,来确定自己是否在使用XEN实例。 当前XEN实例的规格名称包括:C1、C2、S1、M1、E1、E2、
本节介绍REST API请求的组成,并以调用IAM服务的管理员创建IAM用户来说明如何调用API,该API获取用户的Token,Token可以用于调用其他API时鉴权。 您还可以通过这个视频教程了解如何构造请求调用API:https://bbs.huaweicloud.com/videos/102987。
访问ECS实例上运行的网站卡顿,如何定位问题? 问题描述 一次完整的HTTP请求包括域名解析、建立TCP连接、发起请求、服务器接收到请求进行处理并返回处理结果、浏览器对HTML代码进行解析并请求其他资源,以及对页面进行渲染呈现。其中,HTTP的请求过程经历了用户本地客户端、客户端到
选择。 机器学习:机器学习中多层神经网络需要大量计算资源,其中训练过程需要处理海量的数据,推理过程则希望极低的时延。同时机器学习算法还在不断优化中, FPGA以其高并行计算、硬件可编程、低功耗、和低时延等优势,可针对不同算法动态编程设计最匹配的硬件电路,满足机器学习中海量计算和极
如何处理ECC ERROR:存在待隔离页问题 问题描述 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr
统官网帮助中心。 Windows系统ECS转换分区格式过程中,磁盘数据不可用,如果您正在运行的业务依赖于该磁盘的数据,可能会出现问题。 建议您转换前先停止业务,待分区格式转换完成并恢复磁盘数据后再继续进行。 转换分区格式过程中,磁盘上所有数据会被清除,请您提前备份磁盘上的所有数据。
如何解决ECS日志中出现Too many open files的错误? 问题描述 Linux操作系统的ECS日志中出现“Too many open files”的错误。 可能原因 too many open files(打开的文件过多),表示程序打开的文件句柄数过多,超过了某一资
云服务器如何升配和降配,是否需要关机? 当您购买的弹性云服务器的规格无法满足业务需要时,您可以随时变更规格,升级vCPU和内存。 在弹性云服务器列表页,单击“操作”列下的“更多 > 变更规格”,即可变更弹性云服务器的规格。 变更规格过程中,弹性云服务器需要关机,建议您选择业务空闲时间进行操作。
Linux如何创建swap分区/swap文件 适用场景 本节操作以CentOS 6.8操作系统云服务器为例,指导用户创建swap分区。 约束与限制 操作过程中涉及创建指定大小的文件,请确认系统磁盘空间有足够的空余空间。 场景一:使用块设备创建swap 执行以下命令,新建一个分区(以2G为例)。
如何使用华为云提供的Pypi镜像源(x86_64和鲲鹏)? 操作场景 更新弹性云服务器的系统或者软件时,可以连接Internet,通过外部Pypi镜像源提供相关服务。但是,如果弹性云服务器无法访问Internet,或者外部Pypi镜像源提供的服务不稳定时,可以使用华为云提供的Pypi镜像源进行更新。
如何处理Nouveau驱动未禁用导致的问题 问题描述 Nouveau驱动未禁用可能导致Linux系统卡死、虚拟机无法远程登录等问题。一般常见于客户使用自己的私有镜像(从ECS普通虚拟机导出的镜像或其他来源的私有镜像)。 判断方式 执行以下命令,查看Linux内核环缓冲区中的错误关键字信息。
GPU加速型,新增P2s型弹性云服务器。 P2s型弹性云服务器采用NVIDIA Tesla V100 GPU,能够提供超高的通用计算能力,适用于AI深度学习、科学计算,在深度学习训练、科学计算、计算流体动力学、计算金融、地震分析、分子建模、基因组学等领域都能表现出巨大的计算优势。 商用 GPU加速型 2021年5月