检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查询浮动IP列表(废弃) 功能介绍 查询浮动IP列表。 当前API已废弃,请使用"查询浮动IP列表"。 URI GET /v2.1/{project_id}/os-floating-ips 参数说明请参见表1。 表1 参数说明 参数 是否必选 描述 project_id 是 项目ID。
v a1),请继续按照处理方法处理;如果查找不到显卡或者显示状态为rev ff,请根据显卡故障诊断及处理方法进行故障诊断。规格对应显卡数量可以通过GPU加速型查询。 lspci | grep -i nvidia 处理方法 非CCE集群场景,建议尝试自行重装驱动,或升级驱动版本后执
删除安全组规则(废弃) 功能介绍 删除安全组规则。 当前API已废弃,请使用“删除安全组规则”。 URI DELETE /v2.1/{project_id}/os-security-group-rules/{security_group_rule_id} 参数说明请参见表1。 表1
创建安全组规则(废弃) 功能介绍 创建安全组规则。 当前API已废弃,请使用“创建安全组规则”。 URI POST /v2.1/{project_id}/os-security-group-rules 参数说明请参见表1。 表1 参数说明 参数 是否必选 描述 project_id
SSH密钥无法登录,报错Authentication refused: bad ownership or modes for directory /root 问题描述 SSH密钥无法登录,报错Authentication refused: bad ownership or modes
fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing, 非硬件故障,可能是自身软件错误。 详情可以参考NVIDIA的Xid描述文档:https://docs.nvidia.com/deploy/xid-errors/index.html。
更新安全组信息(废弃) 功能介绍 更新安全组。 当前API已废弃,请使用“更新安全组”。 URI PUT /v2.1/{project_id}/os-security-groups/{security_group_id} 参数说明请参见表1。 表1 参数说明 参数 是否必选 描述
install gcc libffi-devel python-devel openssl-devel -y 再次使用pip安装python库软件,可以看到系统不再报错,如图2所示。 图2 安装成功 父主题: 操作系统类(Linux)
核参数/proc/sys/kernel/pid_max控制。 解决方案 远程登录ECS实例。 执行以下命令,查看系统当前已运行的进程数。 ps -eLf | wc -l 结果如下: 32753 也可以通过执行以下命令,通过观测plist-sz列数值查看系统已运行的进程数变化情况。
查询浮动IP资源池列表(废弃) 功能介绍 查询浮动IP资源池列表。 当前API已废弃,请使用"查询网络"。 接口约束 接口参数为:router:external=True GET /networks?router:external=True 返回结果中的name字段 URI GET
Web访问超时系统日志打印:nf_conntrack:table full, dropping packet 问题现象 客户端访问web时出现time out。 服务端系统日志/var/log/messages打印kernel: nf_conntrack:table full, dropping
据写入该文件。只有管理员用户可以设置或清除此属性。 1.如果设置了'a'属性的文件只能在append(只允许增加记录)写作模式。只有管理员用户可以设置或清除此属性。 CAP_LINUX_IMMUTABLE功能可以设置或清除这个属性。 其他文件属性可以执行以下命令查看chattr使用手册。
配置License。 如果用户已购买过License,但是未配置License,请参考GPU加速型实例安装GRID驱动配置License服务器与License文件。 父主题: 非硬件故障自恢复处理方法
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
error,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。 如果在volatile Uncorr. ECC下未发现ecc error,可以执行nvidia-smi -q查看所有的卡。 如果volatile下Single Bit或Aggregate下的Single Bit仅有Device
如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的
显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持检查硬件是否存在问题。 如果风扇显示ERR!,可能是因为显卡过热,用户先停止业务,待显卡缓解
如何处理用户使用场景与其选择的驱动、镜像不配套问题 问题描述 用户业务是做渲染(推理)的,但用户选择了带Tesla驱动(GRID驱动)的公共镜像,运行软件时出错。 例:用户使用场景为做渲染,但选错公共镜像,运行软件时报错“A D3D11-compatible GPU (Feature
0,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。 如果在volatile Uncorr. ECC下ecc error = 0,可以执行nvidia-smi -q查看所有的卡。 如果Pending Page Blacklist 为No,且double bit ecc e
NetworkManager服务无法启动,报错:Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错:Failed to restart