检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
security_group 是 Object security_group对象,在消息体中指定,请参见表3。 表3 请求参数security_group的对象 参数 是否必选 参数类型 描述 name 否 String 安全组名称,长度0-255。 description 否 String 安全组描述,长度0-255。
0 执行以下命令,查看系统配置的最大进程数。 cat /proc/sys/kernel/pid_max 32768 如果系统当前已经运行的进程数接近或达到系统配置的最大进程数,则说明需要增大/proc/sys/kernel/pid_max的数值。 根据业务需要,执行以下命令
执行nvidia-smi命令,仅Pwr:Usage/Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 非硬件故障自恢复处理方法
示ICMP的类型字段(type),范围是0-255。 说明: ICMP的消息类型由报文中的类型字段和代码字段共同决定,具体映射关系请参见《虚拟私有云接口参考》的“附录 > 安全组规则icmp协议名称对应关系表”章节。其中,字段port_range_min表示ICMP的类型字段,p
root用户用passwd命令修改管理员用户以及普通用户的密码时失败,提示passwd:Authentication token manipulation error。 根因分析 出现该问题通常是密码文件的属性的问题导致,也有可能是根目录空间满。 执行以下命令查看存放用户和密码的
说明: ICMP的消息类型由报文中的类型字段和代码字段共同决定,具体映射关系请参见《虚拟私有云接口参考》的“附录 > 安全组规则icmp协议名称对应关系表”章节。其中,字段port_range_min表示ICMP的类型字段,port_range_max表示ICMP的代码字段。 to_port
相关联的安全组ID,UUID格式。 ip_protocol 是 String IP协议:icmp,tcp,或者udp from_port 是 Integer 起始端口,范围1-65535,且不大于to_port 。 当协议类型为icmp时,from_port为icmp协议的type,范围是0-255。
包含对端ip网段,cidr格式,参见表7。ip_range或者group参数的值为空。 group 是 Object 包括对端安全组的名称和对端安全组所属租户的租户ID,参见表8,ip_range或者group参数的值为空。 id 是 String 安全组规则ID,UUID格式。 表7
删除安全组规则(废弃) 功能介绍 删除安全组规则。 当前API已废弃,请使用“删除安全组规则”。 URI DELETE /v2.1/{project_id}/os-security-group-rules/{security_group_rule_id} 参数说明请参见表1。 表1
如果API的这个版本支持微版本,则支持最小的微版本。 如果不支持微版本,这将是空字符串。 status string API版本的状态: CURRENT这是使用的API的首选版本; SUPPORTED:这是一个较老的,但仍然支持的API版本; DEPRECATED:一个被废弃的API版本,该版本将被删除
可能原因 根据日志报错,提示/root这个目录权限问题,排查/root目录,以及目录内的.ssh,.ssh目录内authorized_keys的权限以及属主属组。 处理方法 修改/root目录的权限以及属主属组后,SSH恢复正常。 父主题: SSH连接
接口约束 接口参数为:router:external=True GET /networks?router:external=True 返回结果中的name字段 URI GET /v2.1/{project_id}/os-floating-ip-pools 参数说明请参见表1。 表1 参数说明
如何处理GPU掉卡问题 问题描述 执行nvidia-smi命令查询到的显卡的数量较实际规格对应的显卡数量少。 如上图所示,执行nvidia-smi命令查询到7张显卡,实际该机型应有8张显卡。 判断方式 执行以下命令,显卡的数量与实际规格对应的显卡数量一致,且显卡在位状态正常(rev a1),请继
string API版本的状态。 CURRENT,这是使用的API的首选版本 SUPPORTED,这是一个较老的,但仍然支持的API版本。 DEPRECATED,一个被废弃的API版本,该版本将被删除。 version string 如果API的这个版本支持微版本,则支持最大的微版本。 如果不支持微版本,这将是空字符串。
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持检查硬件是否存在问题。 如果风扇显示ERR!,可能是因为显卡过热,用户先停止业务,待
问题描述 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr. ECC下ecc error > 0,
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。 处理方法 用户停止业务并执行业务迁移。 执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 显卡故障诊断及处理方法
NetworkManager服务无法启动,报错:Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错:Failed to restart