检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
s.nvidia.com/deploy/xid-errors/index.html。 处理方法 执行dmesg | grep –i xid命令,查看是否存在xid报错。 通知用户停止业务,执行业务迁移,并根据故障信息收集章节收集故障信息后,联系技术支持处理。 父主题: 显卡故障诊断及处理方法
修改ro为rw,以读写方式挂载根分区。 并添加rd.break,然后执行Ctrl+X。 图3 修改前 图4 修改后 执行以下命令切换至/sysroot目录。 chroot /sysroot 执行以下命令,查看系统日志定位出错的文件 grep Module /var/log/messages 图5 系统日志
如何收集NVIDIA日志 收集NVIDIA日志方法如下: 登录弹性云服务器。 在任意目录下执行以下命令。(如果是CCE场景,进入到/opt/cloud/cce/nvidia/bin目录后执行) sh nvidia-bug-report.sh 或 ./nvidia-bug-report
登录弹性云服务器。 执行以下命令,编辑/etc/ssh/sshd_config文件。 vi /etc/ssh/sshd_config 修改如下配置项: X11Forwarding参数修改为:yes UseLogin参数去掉前面的注释,并修改取值为no 修改结果如下图所示: 执行以下命令,重启ssh服务。
根因分析 执行以下命令,查询有问题的mount unit。 systemctl list-units --type=mount |grep failed test1.mount loaded failed failed /test1 执行以下命令,查询该unit的状态。
如何处理显卡ERR!问题 问题描述 执行nvidia-smi命令,仅Pwr:Usage/Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。
如果表1中不包含您的弹性云服务器所在区域,请您为弹性云服务器绑定EIP,然后选择就近区域进行下载。 绑定EIP的详细操作,请参见绑定弹性公网IP。 以管理员权限打开cmd,执行以下命令,获取本地一键式重置密码插件的Hash值。 certutil –hashfile {软件包本地目录}\CloudResetPwdAgent
操作步骤 执行以下命令,在vi编辑器中打开“/etc/selinux/config”。 vi /etc/selinux/config 按“i”进入编辑模式,修改SELINUX=disabled。 修改完成后,按“Esc”,输入:wq保存并退出文件编辑。 执行以下命令,重启云服务器,使修改生效。
以查看net.ipv4.tcp_tw_recycle的值为例,执行以下命令: cat /proc/sys/net/ipv4/tcp_tw_recycle 方法二:通过“/etc/sysctl.conf”文件进行查看。 执行以下命令,查看当前系统中生效的所有参数。 /usr/sbin/sysctl
云市场中的模板是华为云合作伙伴提供的专业建站模板,可以通过云市场购买合适的模板,部署时间短,过程简单,后台管理方便,且有专人提供网站维护支持。 适用于需求简单,云市场模板可以满足需求的个人或者中小企业用户。有PC、手机、微信等多种渠道可选择,部署使用简单,成本较低。 云市场网站定制 华为云市场是一个云上的软件和服务
_hosts: false”。 manage_etc_hosts: false 执行以下命令,保存并退出文件。 :wq 执行以下命令,重启弹性云服务器。 sudo reboot 执行以下命令,验证主机名和hosts的修改是否永久生效。 sudo hostname sudo cat
根据不同的系统在服务器中执行如下命令,查看安装驱动时的内核版本: CentOS:find /usr/lib/modules -name nvidia.ko Ubuntu:find /lib/modules -name nvidia.ko 示例:以CentOS为例,执行上述命令,回显信息如图2所示可以看出GPU驱动是基于3
钥文件是kp-123.pem为例进行介绍。 在您的linux计算机的命令行中执行如下命令,变更权限。 chmod 400 /path/kp-123.pem 上述命令的path为密钥文件的存放路径。 执行如下命令,登录弹性云服务器。 ssh -i /path/kp-123.pem 默认用户名@弹性公网IP
如何查询NVIDIA的错误信息 查询NVDIA错误信息的方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在error信息,保存回显结果。 dmesg | grep -i nvidia 也可过滤关键字后保存结果,例如:NVRM、nouveau、nvidia、nv字样等。 父主题:
error错误,并无待隔离页 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile Uncorr. ECC下ecc error > 0,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。
com/release/script/diagnose_gpu.sh 执行bash diagnose_gpu.sh命令,将信息收集到信息文件diagnose_gpu_xxxxx.tar.gz进行自排查或工单联系技术支持。 使用命令获取信息请参考表1。 表1 获取信息方法 信息分类 相关文档 显卡基本信息 如何获取显卡ID
failed报错,重新设置过期账号密码或调整账号过期时间即可。 处理方法 方法一: 以root用户登录Linux云服务器。 执行以下命令,重置过期账号的密码。 chage -l 过期账号 方法二: 执行以下命令,调整账号过期时间。 chage -E 过期时间 过期账号 父主题: Linux远程登录报错类
Syncing disks. 执行以下命令,将新建的分区创建为swap。 mkswap /dev/vdb1 执行以下命令,激活swap分区。 swapon /dev/vdb1 执行以下命令,查询已启动的swap。 swapon -s 执行以下命令,查询swap分区UUID。 blkid
TYPE="ext4" 执行以下命令,安装growpart工具。 工具growpart可能集成在cloud-utils-growpart/cloud-utils/cloud-initramfs-tools/cloud-init包里,可以直接执行命令yum install clou
100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc error,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。