检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
修改节点的操作系统镜像,并且您的软件和原操作系统耦合度较低,建议使用重置节点的功能进行系统切换。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点池”页签。 选择需要更新的存量节点池,单击“更新 ”,将CentOS操作系统切换为支持切换的操作系统支持切换的操作系统,建议选择操作系统为Huawei
日志无法上报,otel组件标准输出报错:log's quota has full 采集容器内日志,且采集目录配置了通配符,日志无法采集 fluent-bit容器组一直重启 节点OS为Ubuntu 18.04时出现日志无法采集 采集Job日志时出现日志无法采集 云原生日志采集插件运行正常,部分日志策略未生效 log-a
which is unexpected. 此类异常Pod仅为异常记录,并不实际占用系统资源。 排查步骤 导致文件系统异常的原因有很多,例如物理控制节点的异常开关机。此类异常Pod并不影响正常业务,当系统文件未能恢复,出现大量异常Pod时,可采取以下步骤进行规避排查: 执行以下命令,
开通监控中心前,用户需要使用具有admin用户组的账户完成对CCE及其依赖服务的委托授权。 授权方式:监控中心页面自动弹出“确认授权”页面,用户单击“确认授权”按钮后系统自动完成授权。所授予的权限类型请参考云原生观测委托权限说明。 约束与限制 集群版本仅支持v1.17及以上。 使用监控中心前,用户需要使用具
集群漏洞修复周期 高危漏洞: Kubernetes社区发现漏洞并发布修复方案后,CCE一般在1个月内进行修复,修复策略与社区保持一致。 操作系统紧急漏洞按照操作系统修复策略和流程对外发布,一般在一个月内提供修复方案,用户自行修复。 其他漏洞: 按照版本正常升级流程解决。 修复声明 为了防止
容器中挂载的存储资源。 PVC扩容 系统盘扩容 以“EulerOS 2.9”操作系统为例,系统盘“/dev/vda”原有容量50GB,只有一个分区“/dev/vda1”。将系统盘容量扩大至100GB,本示例将新增的50GB划分至已有的“/dev/vda1”分区内。 在EVS控制台对系统盘进行扩容。详情请参见扩容云硬盘容量。
监控中心 监控中心概述 开通监控中心 管理监控采集任务 集群监控 节点监控 工作负载监控 Pod监控 事件监控 仪表盘 父主题: 云原生观测
日志中心 日志中心概述 收集容器日志 采集Kubernetes事件 采集NGINX Ingress访问日志 采集控制面组件日志 采集Kubernetes审计日志 父主题: 云原生观测
告警中心 告警中心概述 通过告警中心一键配置告警 通过CCE配置自定义告警 通过AOM配置自定义告警 CCE事件列表 父主题: 云原生观测
健康中心 健康中心概述 集群诊断 工作负载诊断 诊断项及修复方案 父主题: 云原生观测
节点云服务器使用的系统盘,供操作系统使用。您可以设置系统盘的规格为40GiB-1024GiB之间的数值,缺省值为50GiB。 说明: 修改系统盘“规格”配置时,仅对新增节点生效,存量节点即使重置也无法同步配置。 系统盘加密:系统盘加密功能可为您的数据提供强大的安全防护,加密磁盘生成的快照及通过
配置中心 集群配置概览 集群访问配置 网络配置 调度配置 集群弹性伸缩配置 监控运维配置 Kubernetes原生配置 异构资源配置
收集容器日志 通过云原生日志采集插件采集容器日志 通过ICAgent采集容器日志(不推荐) 父主题: 日志中心
fragMemroy:Frag缓冲区使用量。 rawInuse:正在使用的Raw套接字数量。 文件系统异常 / 文件系统状态 readonly:文件系统只读 deviceError:文件系统错误 磁盘读写速率 次/秒 磁盘每秒进行的读写次数 磁盘读和写延迟(秒) 秒 磁盘读写时延 IO队列数
在弹出的“移除节点”对话框中,配置重装操作系统需要的登录信息,单击“是”,等待完成节点移除。 移除节点后,原有节点上的工作负载实例会自动迁移至其他可用节点。 重装操作系统失败如何处理 移除节点重装操作系统可能会失败,如果碰到这种情况,您可以执行如下步骤重装操作系统并清理节点上的CCE组件。
在不同机器之间移植的系统。它不仅简化了打包应用的流程,也简化了打包应用的库和依赖,甚至整个操作系统的文件系统能被打包成一个简单的可移植的包,这个包可以被用来在任何其他运行Docker的机器上使用。 容器和虚拟机具有相似的资源隔离和分配方式,容器虚拟化了操作系统而不是硬件,更加便携和高效。
告警中心概述 云原生告警是可观测性体系里面比较重要的一环。在云原生告警中,除了传统的CPU、内存等资源使用量的告警以外,还有容器重启等事件告警、应用访问失败等自定义的监控指标告警。 CCE的云原生告警能力是由AOM服务提供的,支持指标和事件的告警。同时,CCE集群详情中增加了告警
Prometheus(停止维护) 插件简介 Prometheus是一套开源的系统监控报警框架。它启发于Google的borgmon监控系统,由工作在SoundCloud的Google前员工在2012年创建,作为社区开源项目进行开发,并于2015年正式发布。2016年,Prometheus正式加入Cloud
健康中心概述 集群健康诊断用于诊断集群的健康状态,该功能集合了容器运维专家的经验,为您提供了集群级别的健康诊断最佳实践。可对集群健康状况进行全面检查,帮助您及时发现集群故障与潜在风险,并给出应对的修复建议供您参考。 健康诊断覆盖范围 健康诊断覆盖范围如下图所示: 图1 健康诊断覆盖范围
告警中心FAQ 如何停止接收告警? 在“告警中心 > 默认联系组”页面对确认订阅的终端,执行删除即可。 图1 删除联系组 为什么告警清除之后还会继续发送告警? 告警清除仅清除告警规则页面的统计,如该告警持续达到阈值或者异常事件持续发生,仍会产生告警。 告警中心的联系组支持钉钉、飞书等么?