检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群删除失败:安全组中存在残留资源 CCE在删除集群时,会连接集群的kube-apiserver查询集群对接的周边资源信息,如Turbo集群对接的弹性网卡/弹性辅助网卡等,当CCE集群的状态为不可用,冻结,休眠等状态时,删除集群有可能会出现查询资源失败而导致集群删除失败的情况。 故障现象 删除集群失败,报错信息如下:
工作负载异常:Pod一直处于Terminating状态 问题描述 查询某个命名空间下的工作负载时,偶现部分Pod(实例)一直处于Terminating 状态。 例如,查询aos命名空间下的Pod: #kubectl get pod -n aos NAME
kubelet性能配置 请求至kube-apiserver的QPS配置 与kube-apiserver通信的qps 参数名 取值范围 默认值 是否允许修改 作用范围 kube-api-qps 大于等于0 100 允许 CCE Standard/CCE Turbo 与kube-apiserver通信的qps
调度器性能配置 请求至kube-apiserver的QPS配置 与kube-apiserver通信的qps 参数名 取值范围 默认值 是否允许修改 作用范围 kube-api-qps 大于等于0 100 允许 CCE Standard/CCE Turbo 与kube-apiserver通信的qps
控制器访问kube-apiserver的QPS 配置建议: 无特殊需求建议保持默认配置 配置过大可能会导致kube-apiserver过载,配置过小可能会触发客户端限流,对控制器性能产生影响 控制器访问kube-apiserver的突发流量上限 控制器访问kube-apiserver的突发流量上限
出现集群过载现象。 客户端查询数据量过大:如发起大量LIST请求,或单个LIST请求查询大量数据。 假设客户端通过Field Selectors指定查询集群中的部分pod数据,并且需要查询etcd(客户端也可以指定从kube-apiserver缓存查询)。由于etcd无法按Fie
若存在回显,则表示Metrics API已开启,可跳过本步骤进行下一步添加指标采集规则。 若未查询到Metrics API,要将其开启,可手动创建对应APIService对象。 创建一个文件,命名为metrics-apiservice.yaml。文件内容如下: apiVersion: apiregistration
s Service不会创建ClusterIP,并且查询会返回所有Pod的DNS记录,这样就可查询到所有Pod的IP地址。有状态负载StatefulSet正是使用Headless Service解决Pod间互相访问的问题。 apiVersion: v1 kind: Service
etrics-apiserver工作负载。 图3 重新部署custom-metrics-apiserver 重启后,可以通过以下指令查看对应的Pod的指标是否正常(注意替换命名空间和业务Pod名)。 # 查询指标 $ kubectl get --raw "/apis/custom
本文将介绍如何使用Prometheus对Master节点的kube-apiserver、kube-controller、kube-scheduler、etcd-server组件进行监控。 通过监控中心查看Master节点组件指标 云原生监控中心已支持对Master节点的kube-apiserver组件进行监控,您在集
节点不可调度将导致节点资源不能被正常使用,请前往CCE节点管理,查看节点状态是否符合预期。 节点kubelet状态 是 kubelet为节点关键组件,不可用可能会导致节点异常,Pod状态不符合预期(与APIServer的Pod状态不一致)。可以到节点上通过如下命令查看kubelet日志,并分析异常原因。命令参考:journalctl
缩。 插件可为Kubernetes提供Metrics API,但默认未开启,若要将其开启,需要创建以下APIService对象: apiVersion: apiregistration.k8s.io/v1 kind: APIService metadata: labels:
检查当前HelmRelease记录中是否含有目标集群版本不支持的K8s废弃API,可能导致升级后helm模板不可用。 解决方案 将HelmRelease记录中K8s废弃API转换为源版本和目标版本均兼容的API。 该检查项解决方案已在升级流程中自动兼容处理,此检查不再限制。您无需关注并处理。
ocker守护进程的API请求。 漏洞详情 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 权限提升 CVE-2024-41110 严重 2024-07-25 漏洞影响 受影响版本中,攻击者可以使用Content-Length设置为0的API请求绕过权限检查,导
日志审计 云审计服务支持的CCE操作列表 在CTS事件列表查看云审计事件 父主题: 云原生观测
可以执行GET、LIST操作 apiGroups表示资源所在的API分组。 resources表示可以操作哪些资源:pods表示可以操作pod,其他Kubernetes的资源如deployments、configmaps等都可以操作 verbs表示可以执行的操作:get表示查询一个Pod,li
x.x #节点名称 进入容器查看参数配置是否生效。 kubectl exec -it <pod name> -- /bin/sh 在容器中执行如下命令查询配置参数是否生效。 sysctl -a |grep somax 图3 查看参数配置 父主题: 网络
使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
您可以使用kubectl命令删除残留的模板实例。 删除残留的模板实例无法从根本上解决该问题。为避免该问题再次发生,建议您及时更新模板中资源的apiVersion版本,保证资源apiVersion与Kubernetes版本匹配。 安装模板时,模板中的一些资源可能已经创建成功,因此首先要手动删除这些资源
如何让多个Pod均匀部署到各个节点上? 如何避免节点上的某个容器被驱逐? 为什么Pod在节点不是均匀分布? 如何驱逐节点上的所有Pod? 如何查看Pod是否使用CPU绑核? 节点关机后Pod不重新调度 如何避免非GPU/NPU负载调度到GPU/NPU节点? 为什么Pod调度不到某个节点上?