检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果工作负载状态为“未就绪”,可通过查看Pod的事件等信息确定异常原因,详情请参见Pod事件查看方法。根据事件,参考Pod常见异常问题查找异常的解决方案。 如果工作负载状态为“处理中”,一般为过程中的状态,请耐心等待。 如果工作负载状态为“运行中”,一般无需处理。如果出现状态正常但无法访问的情况,则需要进一步排查集群内访问是否正常。
1-r2 判断方法 登录CCE控制台,单击集群名称进入集群总览页面,查看集群版本。 如果集群版本不在上述范围内则不受漏洞影响。 如果集群版本在受影响范围内,您可以通过以下命令,检查集群中是否存在该漏洞被利用的情况。 该命令会列举所有挂载使用了gitRepo类型的存储卷,并将仓库克隆到.git子目录的Pod中。
选择“无状态负载”页签,单击已创建工作负载后的“监控”。在监控页面,可查看工作负载的CPU利用率和物理内存使用率。 图1 查看无状态工作负载监控 单击工作负载名称,可在“实例列表”中单击某个实例的“监控”按钮,查看相应实例的CPU使用率、内存使用率。 日志 您可以通过“日志”功能查看无状态工作负载、有状态工作负载、守
证书已过期 通过curl命令测试时报错信息如下: SSL certificate problem: certificate has expired 请及时替换新证书。 客户端使用了不配套的HTTPS证书链验证ELB Ingress侧配置的HTTPS证书 通过curl命令测试时报错信息如下:
CCE节点上监听的端口列表 表1 Node节点监听端口 目的端口 协议 端口说明 10248 TCP kubelet健康检查端口 10250 TCP kubelet服务端口,提供节点上工作负载的监控信息和容器的访问通道 10255 TCP kubelet只读端口,提供节点上工作负载的监控信息
您可以在集群节点上查询GPU/NPU卡的信息,然后使用kubectl搜索到使用该卡的Pod。 GPU场景 NPU场景 登录CCE控制台,在左侧导航栏中选择“节点管理”,切换至“节点”页签,查看GPU节点的IP。本文中以192.168.0.106为例。 登录GPU节点,通过以下命令查看GPU卡的信息。
问题场景一:ntpd运行异常 请登录该节点,执行systemctl status ntpd命令查询ntpd服务运行状态。若回显状态异常,请执行systemctl restart ntpd命令后重新查询状态。 以下为正常回显: 图1 ntpd运行状态 若重启ntpd服务无法解决该问题,请联系技术支持人员。
Ingress配置HTTP/2 Ingress支持HTTP/2的方式暴露服务,在默认情况下,客户端与负载均衡之间采用HTTP1.X协议,若需开启HTTP2功能,可通过控制台配置和通过kubectl命令行配置。 前提条件 已创建一个CCE Standard或CCE Turbo集群,且集群版本满足以下要求:
login命令 在Jenkins安装部署过程中,已经完成了容器中执行docker命令的配置(参见9),故Jenkins对接SWR无需额外配置,可直接执行docker命令。仅需获取长期有效的SWR登录指令,具体步骤请参见获取长期有效docker login指令。 例如本账号的命令为: docker
应的服务权限后才能正常查看或使用,详细说明如下: 依赖服务的权限配置均基于您已设置了IAM授权的CCE FullAccess或CCE ReadOnlyAccess策略权限,详细设置方法请参见集群权限(IAM授权)。 集群显示情况依赖于命名空间权限的设置情况,如果没有设置命名空间权限,则无法查看集群下的资源。
排查项五:检查容器所在节点安全组是否放通 排查项一:容器+容器端口 在CCE控制台界面或者使用kubectl命令查找pod的IP,然后登录到集群内的节点或容器中,使用curl命令等方法手动调用接口,查看结果是否符合预期。 如果容器IP+端口不能访问,建议登录到业务容器内使用“127.0.0.1+端口”进行排查。
才会出现Terminating状态,这种情况下只要等待Kubernetes本身将命名空间下的资源回收后,该命名空间将会被系统自动删除。 但是在某些情况下,即使命名空间下没有运行的资源,但依然无法删除Terminating状态的命名空间的情况,它会一直处于Terminating状态下。
执行以下命令,查看已创建的Pod。 kubectl get pod | grep nginx-configmap 预期输出如下: nginx-configmap-*** 1/1 Running 0 2m18s 执行以下命令,查看该Pod中的环境变量。
当Pod对这些污点存在容忍策略时,Pod不会进行重新调度,因此需要检查Pod对污点的容忍策略。 解决方案 通过查询Pod或者工作负载的yaml,查看容忍策略。一般情况下,工作负载的容忍度设置由以下字段组成: tolerations: - key: "key1" operator:
在同集群、同操作系统的节点上进行脚本命令可行性的测试,在节点上手动执行命令,确认脚本命令可行。手动执行脚本命令请参考修改节点RuntimeMaxUse。 (以下命令需在手动执行命令验证成功后配置)在创建节点或节点池时,在“高级配置 > 安装后执行脚本”中添加可执行的脚本命令。 登录节点查看/etc/systemd/journald
导出的文件为“.xlsx”格式,文件命名中包含时间戳。 监控 在此处,您可以方便地查看Pod在近1小时、近8小时、近24小时以及自定义时间段内各维度资源的使用情况。如需查看更多监控信息,请单击“查看全部仪表盘”,跳转至“仪表盘”页面,相应指导请参见使用仪表盘。 图4 Pod监控 CPU相关指标
此处默认统计近1小时、近8小时和近24小时的各维度资源用量。如需查看更多监控信息,请单击“查看全部监控”,跳转至“仪表盘”页面,相应指导请参见使用仪表盘。 您可以将鼠标悬停在图表上,以便查看每分钟的监控数据。 CPU:单位时间内集群CPU使用情况的统计。 内存:单位时间内集群内存使用情况的统计。 PVC存储状态:PVC和PV的绑定情况。
时,DNS查询时只会返回Service的ClusterIP地址,具体访问到哪个Pod是由集群转发规则(IPVS或iptables)决定的。而Headless Service并不会分配单独的ClusterIP,在进行DNS查询时会返回所有Pod的DNS记录,这样就可查询到每个Pod
限,才能有操作Kubernetes资源(如工作负载、Service等)的权限。 使用CCE控制台查看集群时,显示情况依赖于命名空间权限的设置情况,如果没有设置命名空间权限,则无法查看集群下的资源,详情请参见CCE控制台的权限依赖。 前提条件 给用户组授权之前,请您了解用户组可以添
基于GPU监控指标的工作负载弹性伸缩配置 集群中包含GPU节点时,可通过GPU指标查看节点GPU资源的使用情况,例如GPU利用率、显存使用量等。在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,在业务波动时自适应调整应用的副本数量。 前提条件 目标集群已创建,且