检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
云原生观测 云原生观测体系概述 云原生观测委托权限说明 健康中心 监控中心 日志中心 告警中心 日志审计 云原生观测FAQ 云原生观测最佳实践
容器安全插件 CCE密钥管理(对接 DEW) 容器镜像签名验证 父主题: 插件
节点池 节点池概述 新版节点池切换说明 节点池多规格计费说明 创建节点池 扩缩容节点池 管理节点池 节点池管理最佳实践
最后阶段带到生产环境,同时要保证系统不间断提供服务。如果直接将某版本上线发布给全部用户,一旦遇到线上事故(或BUG),对用户的影响极大,解决问题周期较长,甚至有时不得不回滚到前一版本,严重影响了用户体验。 解决方案 长期以来,业务升级逐渐形成了几个发布策略:灰度发布、蓝绿发布、A
Node视图 从节点视角出发,加入了节点资源、网络、磁盘等关键指标呈现,帮助您掌控节点运行状况。 指标说明 Node视图暴露的指标如下: 图1 Node资源指标 表1 Node资源指标说明 指标名称 单位 说明 节点CPU使用率 百分比 节点CPU使用率 CPURequests水位
在业务验证过程中,出于一些原因,该用户对集群的资源进行了以下变更: 图1 资源变更样例 该用户于2023/03/18 17:30:00对集群进行休眠,并同时对节点进行关机。 该用户于2023/03/19 8:30:00重新唤醒集群,并同时对节点进行开机。 该用户在集群中部署业务,并在2023/03/19
该API用于在指定集群自定义节点池下纳管节点。竞价实例不支持纳管。 纳管节点支持ECS(弹性云服务器)节点、BMS(裸金属服务器)节点、DeH(专属主机)节点。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 调用方法 请参见如何调用API。
节点Kubelet检查异常处理 检查项内容 检查节点kubelet服务是否运行正常。 解决方案 问题场景一:kubelet状态异常 kubelet异常时,节点显示不可用,请参考集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 问题场景二:cce-pause版本异常 检测
v1.25.5-r20 1.27版本:v1.27.1-r0 - v1.27.2-r20 IAM服务出现区域性故障,且故障期间集群中的IAM临时访问密钥发生过期。 集群内工作负载新建或更新等涉及Pod启动,且需要对接存储卷挂载、负载均衡等功能。 修复方案 请您关注补丁版本发布记录,及时
CCE集群支持创建裸金属节点(VPC网络),支持裸金属和虚机混合部署 GPU支持V100类型 1.11集群对接AOM告警通知机制 Service支持访问类型切换 支持服务网段 集群支持自定义每个节点分配的IP数(IP分配) v1.11.3-r2 主要特性: 集群支持IPv6双栈 ELB负载均衡支持源IP跟后端服务会话保持
17正式废弃 events.k8s.io/v1beta1 Event API中series.state字段废弃,将在1.18版本中移除 参考链接 社区v1.13与v1.15版本之间的CHANGELOG v1.14到v1.15的变化: https://github.com/kuber
InstanceSpec object spec是集合类的元素类型,内容为插件实例具体信息,实例的详细描述主体部分都在spec中给出 status AddonInstanceStatus object 插件实例状态 表6 AddonMetadata 参数 参数类型 描述 uid String
内存平均使用率 远程写Bps 字节/秒 每秒远程写入的字节数 远程写平均耗时 秒 远程写入平均耗时 远程写Pending字节数 字节 远程写入挂起的数据字节数 远程写Packet每秒丢弃次数 次 远程写入每秒丢弃的数据包数 远程写每秒错误请求次数 次 远程写每秒错误请求次数 远程写错误请求百分比
节点升级过程中需要使用磁盘存储升级组件包,使用/tmp目录存储临时文件。 问题场景一:Master节点磁盘使用量不满足升级要求 请联系技术支持人员排查处理。 问题场景二:用户节点磁盘使用量不满足升级要求 请执行以下检查命令,检查当前各关键磁盘的空间使用情况,删除整理确保各可用空间满足要求后,重试检查。 dock
节点系统参数检查异常处理 检查项内容 检查您节点上默认系统参数是否被修改。 解决方案 如您的bms节点上bond0网络的mtu值非默认值1500,将出现该检查异常。 非默认参数可能导致业务丢包,请改回默认值。 父主题: 升级前检查异常问题排查
残留packageversion检查异常处理 检查项内容 检查当前集群中是否存在残留的packageversion。 解决方案 检查提示您的集群中存在残留的CRD资源10.12.1.109,该问题一般由于CCE早期版本节点删除后,对应的CRD资源未被清除导致。 您可以尝试手动执行以下步骤:
SIGSEGV 11 Core 试图访问无权限的内存位置 SIGPIPE 13 Term 管道断开信号 SIGALRM 14 Term 时钟定时信号 SIGTERM 15 Term 进程结束信号,通常是程序自行正常退出 SIGUSR1 10 Term 用户在应用程序中自行定义的信号 SIGUSR2
健康中心 健康中心概述 集群诊断 工作负载诊断 诊断项及修复方案 父主题: 云原生观测
节点运维 节点预留资源策略说明 默认数据盘空间分配说明 节点可创建的最大Pod数量说明 CCE节点kubelet和runtime组件路径与社区原生配置差异说明 将节点容器引擎从Docker迁移到Containerd 节点系统参数优化 配置节点故障检测策略 创建节点时执行安装前/后脚本
告警中心 告警中心概述 通过告警中心一键配置告警 通过CCE配置自定义告警 通过AOM配置自定义告警 CCE事件列表 父主题: 云原生观测