检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查节点镜像数量异常处理 检查项内容 检查到您的节点上镜像数量过多(>1000个),可能导致docker启动过慢,影响docker标准输出,影响nginx等功能的正常使用。 解决方案 请手动删除残留的镜像,防止后续升级异常; 删除镜像之后请您重新进行升级前检查 父主题: 升级前检查异常问题排查
Pod 失败情况会被统计下来,受 .spec.backoffLimit 字段所设置的全局重试次数限制。这意味着,如果存在某个索引值的 Pod 一直持续失败,则会 Pod 会被重新启动,直到重试次数达到限制值。 一旦达到限制值,整个 Job 将被标记为失败,并且对应某些索引的 Pod
的编程接口。它支持通过标准HTTP请求方法(POST、PUT、PATCH、DELETE、GET)进行查询、创建、更新和删除各类集群资源。 CCE支持通过多种方式使用原生Kubernetes API: 通过集群API Server调用Kubernetes API:(推荐)直接连接集群API Server,适合大规模调用。
Pod 失败情况会被统计下来,受 .spec.backoffLimit 字段所设置的全局重试次数限制。这意味着,如果存在某个索引值的 Pod 一直持续失败,则会 Pod 会被重新启动,直到重试次数达到限制值。 一旦达到限制值,整个 Job 将被标记为失败,并且对应某些索引的 Pod
每一次指标采集的时间间隔 抓取失败 次 采集失败的次数 Samples添加速率 个 head 添加Samples的速率 Head中Series数量 个 head中Series数量 Head块数量 个 head块数量 查询速率 次/秒 每秒执行普罗query的次数 P90查询耗时 秒 不同分片的90%的操作的查询耗时
节点镜像层数量异常检查 检查项内容 检查到您的节点上镜像层数量过多(>5000层),可能导致docker/containerd启动过慢,影响docker/containerd标准输出。 如果您集群中使用了nginx,可能会出现转发变慢等问题。 解决方案 请登录节点手动删除用不到的镜像,防止后续升级异常。
在执行退订操作前,请确保将退订的云资源上的数据已完成备份或者迁移,退订完成后云资源将被删除,数据无法找回,请谨慎操作。 页面中间有关于5天无理由退订的已退订次数和剩余退订次数提示,请注意查看。 进入“云服务退订”页面。 单击“退订使用中的资源”页签。 单个资源退订与批量退订可使用不同的操作方式: 退订单个
图4 多个资源开通自动续费 选择续费时长,并根据需要设置自动续费次数,单击“开通”。 在“续费管理”页面开通的自动续费,自动续费周期以实际选择的续费时长以及自动续费次数为准。例如:您选择了续费时长3个月,不限次数,即在每次到期前自动续费3个月。 图5 开通自动续费 父主题: 续费
工作负载配置的健康检查会定时检查业务,异常情况下pod会报实例不健康的事件且pod一直重启失败。 工作负载若配置liveness型(工作负载存活探针)健康检查,当健康检查失败次数超过阈值时,会重启实例中的容器。在工作负载详情页面查看事件,若K8s事件中出现“Liveness probe failed: Get http…”时,表示健康检查失败。
请求时延(写)(P99) 毫秒 P99写请求时延 图2 工作队列指标 表2 工作队列指标说明 指标名称 单位 说明 工作队列增加速率 操作次数/秒 APIServer每秒工作队列增加的次数 工作队列深度 个 工作队列深度 工作队列时延(P99) 毫秒 APIServer请求P99在工作队列中停留时间 图3
节点上的Pod每秒发送丢失的数据包个数 图3 节点磁盘指标 表3 节点磁盘指标说明 指标名称 单位 说明 节点磁盘读写IO速率(读+写) 次数/秒 节点磁盘每秒读写IO次数 节点磁盘读写吞吐量(读+写) 字节/秒 节点中Pod每秒读写磁盘字节数 指标清单 节点视图使用的指标清单如下: 表4 节点指标清单
ReplicaSet副本数在5分钟内变化次数超过3次 事件名称 输入事件的名称,该名称需要与实际产生的Kubernetes事件或云服务事件相匹配。具体事件名称可请参见CCE事件列表。 ScalingReplicaSet 触发方式 立即触发:只要事件出现即发生告警。 累计触发:在指定的监控周期内,累计次数满足数值要求,才会发生告警。
spec.parallelism表示并行运行的Pod的个数,默认为1。 .spec.backoffLimit表示失败Pod的最大重试次数,超过这个次数不会继续重试。 .spec.activeDeadlineSeconds表示Pod运行时间,一旦达到这个时间,Job及其所有的Pod都
日志中心概述 Kubernetes日志可以协助您排查和诊断问题。本文介绍CCE如何通过多种方式进行Kubernetes日志管理。 CCE提供给您多种方式进行Kubernetes日志管理。 您可以方便地使用CCE 云原生日志采集插件采集应用日志并上报LTS,从而更好地利用LTS日志
node_disk_reads_completed_total Counter 磁盘读取完成的次数 node_disk_read_time_seconds_total Counter 磁盘读取完成的次数的总耗时 node_disk_io_time_weighted_seconds_total
详细参数说明请参见创建事件类告警规则。 规则类型:选择“事件告警规则”。 事件类型:选择“系统事件”。 事件来源:选择“CCE”。 监控对象:监控对象可以通过多个维度(通知类型、事件名称、告警级别、自定义属性、命名空间、集群名称)进行筛选,您可以根据需要选择。 本示例中根据“事件名称”进行筛选,选
制作CCE节点自定义镜像 CCE自定义镜像制作基于开源工具HashiCorp Packer(>=1.7.2)以及开源插件实现,并提供了cce-image-builder配置模板帮助您快速制作符合要求的自定义镜像。 Packer是一款可以创建自定义镜像的开源工具。Packer包含构
以确保插件实例能够正常运行。例如,如果您将集群规格从50节点调整为200节点或以上,则需要增加插件CPU、内存配额,防止插件实例因需要调度过多的节点而出现OOM等异常。因此,在调整集群规格后,请您同时考虑调整插件资源配额。 CoreDNS域名解析 CoreDNS所能提供的域名解析
内存:单位时间内集群内存使用情况的统计。 PVC存储状态:PVC和PV的绑定情况。 Pod数量状态趋势:实时监控集群Pod的状态。 Pod总重启次数趋势:近5分钟的集群的Pod重启次数总和。 节点状态趋势:实时监控集群节点的状态。 父主题: 监控中心
据丢包数之和。 图3 磁盘图表 表3 磁盘图表说明 指标说明 单位 说明 磁盘读写IO速率(读+写) 次数/秒 以命名空间为粒度统计各个命名空间内所有容器每秒的磁盘读写IO的次数之和。 磁盘读写吞吐量(读+写) 字节/秒 以命名空间为粒度统计各个命名空间内所有容器每秒的磁盘读写字节量之和。