检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可能是因为显卡过热,用户先停止业务,待显卡缓解过热后再执行nvidia-smi命令,查看ERR!是否消失。 如果回显正常,建议用户调整下业务,限制显卡运行的最大功率。 如果仍未恢复正常,根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 显卡故障诊断及处理方法
是 项目ID。 获取方法请参见获取项目ID。 server_id 是 云服务器ID。 请求消息 无 响应消息 无 请求示例 删除指定云服务器的所有标签。 DELETE https://{endpoint}/v2.1/{project_id}/servers/{server_id}/tags
信息分类 相关文档 显卡基本信息 如何获取显卡ID 如何查询显卡详细信息 如何查询显卡在位信息 显卡故障信息(Linux) 如何查询NVIDIA的错误信息 如何查询XID报错信息 NVIDIA日志收集(Linux) 如何收集NVIDIA日志 镜像内核信息收集(Linux) 如何查询内核信息
是否必选 参数类型 描述 type 是 String 重启类型: SOFT:普通重启。 HARD:强制重启。 响应消息 无 请求示例 重启指定的云服务器。 POST https://{endpoint}/v2.1/{project_id}/servers/{server_id}/action
请求参数 参数 是否必选 参数类型 描述 os-start 是 null 标记为启动云服务器操作,数据结构为空。 响应消息 无 请求示例 启动指定的云服务器。 POST https://{endpoint}/v2.1/{project_id}/servers/{server_id}/action
参数 是否必选 参数类型 描述 confirmResize 是 null 确认云服务器规格调整。 响应消息 无 请求示例 确认变更指定云服务器的规格。 POST https://{endpoint}/v2.1/{project_id}/servers/{server_id}/action
按“Esc”,输入:wq保存并退出。 执行以下命令,添加启动权限。 chmod +x /etc/rc.d/rc.local 否,请执行下一步。 查看实例的Tesla驱动版本是否为510.xx.xx。 是,该驱动版本与镜像可能存在兼容性问题,建议更换驱动版本,操作指导,请参考安装GPU驱动。 否,请执行下一步。
__type_baremetal 表示该server是一个裸金属服务器。 __type_virtual 表示该server是一个云服务器。 请求示例 创建指定云服务器的标签。 PUT https://{endpoint}/v2.1/{project_id}/servers/{server_id}/tags
参数类型 描述 subnet_id String 网卡所属子网ID。 ip_address String 网卡IP地址。 请求示例 查询指定ID的云服务器网卡信息。 GET https://{endpoint}/v2.1/{project_id}/servers/{server_id}