检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Device=%s, UUID=%s, SN=%s failed to get power state. GPU设备存在功率查询异常 不隔离 故障定位步骤 NVML显存重映射行数查询异常 GPU驱动或GPU设备存在异常,请根据GPU设备所在的节点类型(ECS或BMS),联系对应的客服进行处理。
gressTLS类型为例,详情请参见创建密钥。kubernetes.io/tls类型的密钥示例及说明请参见TLS Secret。 执行如下命令,创建名为“ingress-test-secret.yaml”的YAML文件,此处文件名可自定义。 vi ingress-test-secret
登录CCE控制台,进入集群。 在左侧导航栏中选择“插件中心”,确认CoreDNS插件状态为“运行中”。 单击CoreDNS插件名称,查看插件实例列表。 单击CoreDNS实例的“监控”按钮,查看实例CPU、内存使用率。 如实例已达性能瓶颈,则需调整CoreDNS插件规格。 单击CoreDNS插件的“编辑”按钮,进入插件详情页。
custom-namespace 使用kubectl命令创建。 $ kubectl create -f custom-namespace.yaml namespace/custom-namespace created 您还可以使用kubectl create namespace命令创建。 $ kubectl
AML文件创建工作负载,但是容器在运行时,却不会使用您原本期望的命令,而是执行了镜像中的EntryPoint默认命令。 解决方案 查看Pod的配置,确定Pod中容器的配置是否符合预期。具体操作,请参见Pod配置查看方法。 排查环境变量中的某一个Key是否存在拼写错误时,您可以参考
创建pod。 kubectl create -f hostaliases-pod.yaml 命令行终端显示如下信息表明pod已创建。 pod/hostaliases-pod created 查看pod状态。 kubectl get pod hostaliases-pod pod状态显
-------------------+ 预期输出表明,该容器被分配显存总量为5120 MiB,实际使用了4912MiB。 查看所在节点的GPU显存隔离情况(在节点上执行)。 nvidia-smi 预期输出: Wed Apr 12 09:31:10 2023 +-
125 容器未能运行 发生这种情况的常见原因有如下几种: 命令中使用了未定义的flag,例如docker run --abcd。 镜像中用户定义的命令在本机权限不足。 容器引擎与宿主机操作系统或硬件不兼容。 126 命令调用错误 镜像中调用的命令无法执行,例如文件权限不足或文件不可执行。
执行以下命令,创建一个挂载文件存储的应用。 kubectl apply -f web-demo.yaml 工作负载创建成功后,容器挂载目录下的数据将会持久化保持,您可以参考验证数据持久化及共享性中的步骤进行验证。 验证数据持久化及共享性 查看部署的应用及文件。 执行以下命令,查看已创建的Pod。
检查集群CCE节点的上是否开启了交换区。 解决方案 CCE节点默认关闭swap交换区,请您确认手动开启交换区的原因,并确定关闭影响; 若确定无影响后请执行swapoff -a命令关闭交换区之后重新检查。 父主题: 升级前检查异常问题排查
针对Nginx类型的Ingress资源,查看对应Ingress的YAML,如Ingress的YAML中未指定Ingress类型,并确认该Ingress由Nginx Ingress Controller管理,则说明该Ingress资源存在风险。 获取Ingress类别。 您可以通过如下命令获取Ingress类别:
e目录中查找您需要的chart包,下载后将chart包上传至节点。 下载并解压已获取的chart包,一般chart包格式为.zip。 unzip chart.zip 安装Helm模板。 helm install aerospike/ 安装完成后,执行helm list查看已经安装的模板实例状态。
览”页签中,您可以查看集群中事件的总数、趋势和排序信息;在“事件”中,可以查看事件的详细信息,包括事件名称、类型、内容,以及触发该事件的资源的相关信息等。 概览 “概览”页面默认展示集群中所有命名空间的事件统计信息,您也可以在右上角的下拉框中切换命名空间,以查看指定命名空间下的事件数据。
canal命令查询canal服务运行状态,若回显状态异常,请执行systemctl restart canal命令后重新查询状态。 如果您的集群是1.17.17以上,且是VPC网络或云原生网络2.0,请登录该节点,执行systemctl status yangtse命令查询yang
imagePullSecrets: - name: default-secret Exec Exec即执行具体命令,具体机制是Probe执行容器中的命令并检查命令退出的状态码,如果状态码为0则说明健康,定义方法如下所示。 apiVersion: v1 kind: Pod metadata:
#已创建的PVC名称 执行以下命令,创建一个挂载对象存储的应用。 kubectl apply -f web-demo.yaml 工作负载创建成功后,您可以尝试验证数据持久化及共享性。 验证数据持久化及共享性 查看部署的应用及文件。 执行以下命令,查看已创建的Pod。 kubectl
往CCE节点管理,查看节点状态是否符合预期。 节点kubelet状态 是 kubelet为节点关键组件,不可用可能会导致节点异常,Pod状态不符合预期(与APIServer的Pod状态不一致)。可以到节点上通过如下命令查看kubelet日志,并分析异常原因。命令参考:journalctl
exec命令登录到容器。 请等待kubectl exec 命令自动执行后再操作,此命令出现需要一段时间 5-10秒。 图3 CloudShell页面 使用kubectl命令登录容器 使用kubectl连接集群,详情请参见通过kubectl连接集群。 执行以下命令,查看已创建的Pod。
sh 命令中变量可根据实际情况进行替换: monitoring:Prometheus所在的命名空间。 prometheus-server-0:Prometheus Pod实例的名称。 查看配置文件位置。 ps -aux | grep prometheus 回显如下: 查看并记录prometheus
不同区域支持的节点规格(flavor)不同,且节点规格存在新增、售罄下线等情况,建议您在使用前登录CCE控制台,在创建节点界面查看您需要的节点规格是否支持。 CCE Standard集群 CCE集群只支持2U4G以上的规格,建议您通过控制台查询节点规格,具体节点规格名称请参见规格清单。 在填写flavor时,需要填写具体规格名称,如c6