检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
明Nouveau驱动已禁用。 如果回显信息中包含nouveau关键字样,说明Nouveau驱动已安装,则需要禁用Nouveau驱动。 处理方法 执行如下命令编辑blacklist.conf文件。 如果没有“/etc/modprobe.d/blacklist.conf”文件,请新建一个。
本地Linux主机使用FTP上传文件到Linux云服务器 操作场景 本文介绍如何在 Linux 系统的本地机器上使用 FTP 服务,将文件从本地上传到云服务器中。 前提条件 已在待上传文件的云服务器中搭建 FTP 服务。 云服务器已绑定弹性公网IP,且安全组入方向开启TCP协议的21端口。
执行以下命令,查看GPU信息。 nvidia-smi 如果回显正常,则问题已修复。 如果回显仍报错,请参考GPU驱动不可用中的处理方法进行操作。 父主题: 非硬件故障自恢复处理方法
com/deploy/xid-errors/index.html。 处理方法 尝试重新运行作业并观察Xid错误是否消失。 若错误持续存在,尝试检查代码或分析日志,确认是否为程序引入的Xid故障。 若确认不是程序引入,请联系技术支持处理。 父主题: 非硬件故障自恢复处理方法
PAGE_RETIREMENT 如果3的回显结果中Pending Page Blacklist为Yes,说明存在待隔离页,需要重新加载驱动去隔离。 处理方法 方法一: 执行以下命令,查看GPU使用情况并停掉所有占用GPU的进程。 nvidia-smi 执行以下命令,重置GPU。 nvidia-smi
能表现差;查看/var/log/messages日志发现有如下报错,询问用户后确认用户购买了License但是未配置License。 处理方法 确认用户业务使用场景是否是做图形处理,用户使用的实例规格是否满足图形处理要求。 用户是否安装GRID驱动,执行nvidia-smi命令查询回显是否正常。
Image)的开发和应用。 FPGA加速云服务器提供现场可编程门阵列(FPGA)及较高的计算性能配置的实例,可以适用于并行计算要求较高的应用,例如机器学习、搜索引擎、人工智能等场景。 基本概念 硬件开发套件(HDK):HDK包括加速器示例、编码环境、仿真平台、自动化编译工具、代码加密和调试工具包等必备工具。
kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep gcc #查看gcc版本 rpm -qa | grep
如客户选择自行安装Tesla驱动,请务必告知客户确保Tesla驱动与CUDA软件的版本配套关系,可参考Tesla驱动及CUDA工具包获取方式。 处理方法 如果用户未安装驱动,请自行安装驱动,或切换带驱动的公共镜像,或使用驱动自动安装脚本安装驱动。 GPU加速型实例自动安装GPU驱动(Linux)
com/deploy/xid-errors/index.html。 处理方法 执行dmesg | grep –i xid命令,查看是否存在xid报错。 通知用户停止业务,执行业务迁移,并根据故障信息收集章节收集故障信息后,联系技术支持处理。 父主题: 显卡故障诊断及处理方法
判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的目标NVIDIA软件包版本以及CUDA软件版本。 处理方法 推荐客户使用自动安装驱动脚本。根据当前华为云驱动自动安装脚本中提供的CUDA版本,按需安装。 GPU加速型实例自动安装GPU驱动(Linux)
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障信息收集
如果sftp-server文件缺失或者权限不对都会导致WinSCP连接异常,默认权限是755。 处理方法 如果文件缺失,在可以正常远程的情况下,通过scp或其他文件传输方式将正常云服务器上的文件传输到故障机器对应目录下。 如果文件权限有变化,可以通过chmod修改文件权限为755。 chmod
ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc error,执行nvidia-smi
执行nvidia-smi命令,查看驱动版本,并对照版本配套关系。 版本配套关系:https://docs.nvidia.com/grid/index.html 处理方法 重启GPU弹性云服务器。 若显示适配器恢复正常,则恢复完成。 若仍异常,则执行下一步。 请尝试重装GPU驱动或升级驱动版本。请参考安装GPU驱动。
bit ecc error错误,并无待隔离页 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile Uncorr. ECC下ecc error > 0,执行nvidia-smi
可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。 处理方法 用户停止业务并执行业务迁移。 执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 显卡故障诊断及处理方法
于使目标电脑的网络或系统资源耗尽,服务暂时中断或停止,导致合法用户不能够访问正常网络服务的行为。当攻击者使用网络上多个被攻陷的电脑作为攻击机器向特定的目标发动DoS攻击时,称为分布式拒绝服务攻击(Distributed Denial of Service Attack,简称DDoS)。
鲲鹏AI推理加速型实例kAi1s基于Atlas 300I加速卡设计,更多详细信息请参考昇腾社区。 鲲鹏AI推理加速型云服务器可用于机器视觉、语音识别、自然语言处理通用技术,支撑智能零售、智能园区、机器人云大脑、平安城市等场景。 规格 表2 kAi1s型弹性云服务器的规格 规格名称 vCPU 内存 (GiB)
下载桶中的图片或视频等数据。通过内网访问OBS,可以避免因网络不稳定导致的数据传输中断问题,且使用内网访问OBS不收取流量费用,最大化的优化性能、节省开支,提高文件上传成功率。 当通过内网访问OBS时,需要确保待访问的OBS资源与ECS属于同一个区域,如果不属于同一个区域,将采用公网访问。