检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SDK概述 本文介绍了ECS服务提供的SDK语言版本,列举了最新版本SDK的获取地址。 在线生成SDK代码 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 SDK列表 表1提供了ECS服务支持的SDK列表,您可以在GitHub仓库查看
如何处理Nouveau驱动未禁用导致的问题 问题描述 Nouveau驱动未禁用可能导致Linux系统卡死、虚拟机无法远程登录等问题。一般常见于客户使用自己的私有镜像(从ECS普通虚拟机导出的镜像或其他来源的私有镜像)。 判断方式 执行以下命令,查看Linux内核环缓冲区中的错误关键字信息。
如何处理用户安装了GRID驱动,但未购买、配置License问题 问题描述 用户业务是做图形处理的,且用户已经安装了GRID驱动,但用户的GPU使用率很低或渲染性能达不到预期。 例:运行图像识别任务,任务会突然卡住无法继续运行,GPU的性能表现差;查看/var/log/messa
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
如何处理升级内核后,驱动不可用问题 问题描述 客户执行nvidia-smi,报错failded to initialize NVML: Driver/library version mismatch。 客户执行nvidia-smi,报错NVIDIA-SMI has failed because
备份本地盘数据。 将本地盘中需要备份的数据,备份至新挂载的云硬盘中。 卸载云硬盘。 本地盘数据备份完成后,卸载2中挂载的云硬盘。 详细操作,请参见在线卸载磁盘。 当完成弹性云服务器的响应事件操作时,可以将卸载的云硬盘再次挂载,并将备份的数据恢复至本地盘中。 父主题: 数据备份与恢复
弹性云服务器”,进入弹性云服务器页面。 在弹性云服务器列表中,单击待删除标签的弹性云服务器名称。 系统跳转至该弹性云服务器详情页面。 选择“标签”页签,单击标签所在行“操作”列下的“删除”。 单击“确定”,完成标签的删除。 在标签管理页面单个删除 登录管理控制台。 在右上角的用户名下选择“标签管理”,进入标签管理服务页面。
String 云服务器配置、删除自动恢复动作。 true:表示配置自动恢复。 false:表示删除自动恢复。 响应消息 无 请求示例 PUT https://{endpoint}/v1/{project_id}/cloudservers/{server_id}/autorecovery {
如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
Enclave镜像文件的签名证书的度量值,用户可以选择用自己的证书和私钥对镜像文件进行签名。只有当镜像文件使用了签名证书和私钥进行签名,才会有对应的PCR8。使用PCR8可以确认是镜像是通过特定的签名证书来进行签名的,即使镜像文件改变,只要指定的签名证书不变,PCR8就不会变化。以下是PCR8实例:
Enclave是如何保证内存和CPU隔离的? QingTian Enclave采用经过验证的基于CPU的隔离技术,并结合QingTian架构的独特设计和基于华为自研智能网卡的可信根证书,共同实现隔离。由华为云开发和设计的极简QingTian Hypervisor可以将服务器的物理资源进行分区。相比于其他虚拟化技术,QingTian
弹性云服务器详情列表,具体参照表3接口。 count Integer 弹性云服务器的总数。 请求示例 查询云服务器详情列表,每页返回10个记录,从第1页开始。 GET https://{endpoint}/v1/{project_id}/cloudservers/detail?offset=1&limit=10 响应示例
问题描述 执行了yum makecache生成本地缓存,但下载速度变慢。 处理方法 配置EPEL源。 了解EPEL源。 EPEL的仓库地址:https://repo.huaweicloud.com/epel/ 约束与限制 本节操作仅适用于以下区域:华北-北京一、华北-北京四、华东-上海
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
如何处理用户使用场景与其选择的驱动、镜像不配套问题 问题描述 用户业务是做渲染(推理)的,但用户选择了带Tesla驱动(GRID驱动)的公共镜像,运行软件时出错。 例:用户使用场景为做渲染,但选错公共镜像,运行软件时报错“A D3D11-compatible GPU (Feature
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。
set:”选择“UTF-8”。 单击“Open”。 如果首次登录服务器,PuTTY会显示安全警告对话框,询问是否接受服务器的安全证书。单击“是”将证书保存到本地注册表中。 建立到云服务器的SSH连接后,根据提示输入用户名和密码登录云服务器。 如果是公共镜像(包括CoreOS),首次登录时,登录用户名、密码如下:
如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile
这个日志文件已经被删除,但是由于进程还在一直向此文件写入数据,因此空间并未释放。 可以选择关闭或者重启httpd进程,或重启操作系统。推荐在线清空access_log。 执行以下命令清空access_log。 echo "">/access_log 通过这种方法,磁盘空间不但可以