检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Targets”,可以查看到Prometheus监控了哪些目标。 图2 查看监控目标 监控GPU指标 创建一个使用GPU的工作负载,等工作负载正常运行后,访问Prometheus,在“Graph”页面中,查看GPU指标。 关于GPU指标详情请参见GPU监控指标说明。 图3 查看GPU监控指标
解决方案 问题场景:节点池状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面查看问题节点池状态。若该节点池状态处于伸缩中,请等待节点池伸缩完毕。 图1 查看节点池状态 问题场景:节点池操作系统不支持 由于不同版本之间的运行时和OS存在差异,该异常通常发生在低版本集群升级到1
limits: cpu: 250m memory: 512Mi requests: cpu: 250m memory: 512Mi
排查思路: 确认节点标签是否已经打上nvidia资源。 查看nvidia驱动运行是否正常。 到插件运行所在的节点上,查看驱动的安装日志,路径如下所示: /opt/cloud/cce/nvidia/nvidia_installer.log 查看nvidia容器标准输出日志: 过滤容器id docker
scrape_error node_cpu_usage_seconds_total --> node_cpu_usage_seconds node_memory_working_set_bytes --> node_memory_working_set_bytes container_cpu_usage_seconds_total
避免IPVS缺陷导致的DNS概率性解析超时 使用节点DNS缓存NodeLocal DNSCache 及时升级集群中的CoreDNS版本 谨慎调整VPC和虚拟机的DNS配置 父主题: CoreDNS配置优化实践
当节点无法连接互联网时,请参照如下方法排查。 排查项一:节点是否绑定弹性IP 登录ECS控制台,查看节点对应的弹性云服务器是否已绑定弹性IP。 若弹性IP一栏有IP地址,表示已绑定弹性IP。若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP 排查项二:节点是否配置网络ACL
0/16(安装Gitlab和Jenkins的ECS所在VPC) vpc-A:172.16.0.0/16(测试集群所在VPC) vpc-B:172.17.0.0/16(生产集群所在VPC) 弹性云服务器ECS 本示例中共有1台ECS,ECS位于vpc-X(192.168.0.0/16网段)。 节点规格:4核 | 16GiB
resources: requests: cpu: 100m memory: 200Mi limits: cpu: 100m memory: 200Mi
何请求,例如 “www.kubernetes.io”,将会被转发到继承自节点的上游域名服务器。 已配置存根域:如果配置了存根域和上游DNS服务器,DNS查询将基于下面的流程对请求进行路由: 查询首先被发送到coredns中的DNS缓存层。 从缓存层,检查请求的后缀,并根据下面的情况转发到对应的DNS上:
scrape_error node_cpu_usage_seconds_total --> node_cpu_usage_seconds node_memory_working_set_bytes --> node_memory_working_set_bytes container_cpu_usage_seconds_total
resources: requests: cpu: 100m memory: 200Mi limits: cpu: 100m memory: 200Mi
插件中admission-controller组件实例数,默认为:2 resources 否 Array resources object 容器资源(CPU、内存)配额。 表3 custom 参数 是否必选 参数类型 描述 enable_dnsconfig_admission 否 bool 开
甚至选举等功能,让开发者从基础设施相关配置等解脱出来。 Kubernetes可以把大量的服务器看做一台巨大的服务器,在一台大服务器上面运行应用程序。无论Kubernetes的集群有多少台服务器,在Kubernetes上部署应用程序的方法永远一样。 图1 在Kubernetes集群上运行应用程序
Turbo集群 云原生网络2.0 v1.23.8-r0及以上 v1.25.3-r0及以上 暂不支持创建kata安全容器 仅支持弹性云服务器-虚拟机或弹性云服务器-物理机(机型为c6.22xlarge.4.physical或c7.32xlarge.4.physical) Kuberne
limitsCpu 是 String CPU大小限制,单位:m limitsMem 是 String 内存大小限制,单位:Mi name 是 String 模板名称,固定为:custom-resources requestsCpu 是 String 申请的CPU大小,单位:m requestsMem
支持创建节点池(nodepool),虚拟机/鲲鹏ARM集群均支持 CCE集群支持创建裸金属节点(VPC网络),支持裸金属和虚机混合部署 GPU支持V100类型 1.11集群对接AOM告警通知机制 Service支持访问类型切换 支持服务网段 集群支持自定义每个节点分配的IP数(IP分配) v1.11
支持创建节点池(nodepool),虚拟机/鲲鹏ARM集群均支持 CCE集群支持创建裸金属节点(VPC网络),支持裸金属和虚机混合部署 GPU支持V100类型 1.11集群对接AOM告警通知机制 Service支持访问类型切换 支持服务网段 集群支持自定义每个节点分配的IP数(IP分配) v1.11
#注释{} limits: cpu: 20m memory: 40Mi requests: cpu: 10m memory: 20Mi patchWebhookJob:
-server组件进行监控。 通过监控中心查看Master节点组件指标 云原生监控中心已支持对Master节点的kube-apiserver组件进行监控,您在集群中开通云原生监控中心后(安装云原生监控插件版本为3.5.0及以上),可以查看仪表盘中的APIServer视图,监控API指标。