检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可以看到kube-system有很多Pod,其中coredns是用于做服务发现、everest-csi是用于对接存储服务、icagent是用于对接监控系统。 这些通用的、必须的应用放在kube-system这个命名空间中,能够做到与其他Pod之间隔离,在其他命名空间中不会看到kube-s
残留packageversion检查异常处理 节点命令行检查异常处理 节点交换区检查异常处理 NGINX Ingress控制器插件升级检查异常处理 云原生监控插件升级检查异常处理 Containerd Pod重启风险检查异常处理 GPU插件关键参数检查异常处理 GPU/NPU Pod重建风险检查异常处理
以CentOS Linux操作系统为例,您可以使用如下命令快速安装最新版本的Docker,详细操作请参见Docker-CE。 下载repo文件并替换软件仓库地址。 wget --no-check-certificate -O /etc/yum.repos.d/docker-ce.repo https://mirrors
API的插件,您可根据实际需求选择其中之一: Kubernetes Metrics Server:提供基础资源使用指标,例如容器CPU和内存使用率。 云原生监控插件:使用Prometheus提供基础资源使用指标,需将Prometheus注册为Metrics API的服务,详见通过Metrics API提供基础资源指标。
在这个状态下的实例,不能对外提供业务。 创建中 中间状态 创建节点实例后,在节点状态进入运行中之前的状态。 安装中 中间状态 节点处于安装Kubernetes软件的过程中。 升级中 中间状态 表示节点正处于升级过程中。 删除中 中间状态 节点处于正在被删除的状态。 如果长时间处于该状态,则说明出现异常。
CCE集群控制面已经通过安全组进行防护,只允许从租户节点或者相邻节点访问安全端口,默认安全。 集群node节点上系统组件监听在127.0.0.1的端口只涉及健康检查、监控信息查询等请求,不会有信息泄露风险。 综上,该CVE对CCE集群影响不大。 漏洞修复方案 目前官方已提供安全版本修复了该漏洞,请受影响的用户升级至以下安全版本。
脚本将在Kubernetes软件安装前执行,可能导致Kubernetes软件无法正常安装,需谨慎使用。 安装后执行脚本 请输入脚本命令,命令中不能包含中文字符。脚本命令会进行Base64转码。安装前/后执行脚本统一计算字符,转码后的字符总数不能超过10240。 脚本将在Kubernetes软件安装后执
脚本将在Kubernetes软件安装前执行,可能导致Kubernetes软件无法正常安装,需谨慎使用。 安装后执行脚本 请输入脚本命令,命令中不能包含中文字符。脚本命令会进行Base64转码。安装前/后执行脚本统一计算字符,转码后的字符总数不能超过10240。 脚本将在Kubernetes软件安装后执
huawei-npu-device-plugin 支持容器里使用huawei NPU设备的管理插件。 DaemonSet NPU指标 指标 监控级别 备注 cce_npu_memory_total NPU卡 NPU卡显存总量 cce_npu_memory_used NPU卡 NPU卡显存使用量
v1.27 RollingUpdate参数配置优化 2.0.14 v1.19 v1.21 v1.23 v1.25 v1.27 支持xGPU设备监控 支持nvidia.com/gpu与volcano.sh/gpu-* api兼容 2.0.5 v1.19 v1.21 v1.23 v1.25
一: Kubernetes Metrics Server:提供基础资源使用指标,例如容器CPU和内存使用率。所有集群版本均可安装。 云原生监控插件:该插件支持v1.17及以后的集群版本。 根据基础资源指标进行弹性伸缩:需将Prometheus注册为Metrics API的服务,详见通过Metrics
云容器引擎对接了AOM,AOM会采集容器日志存储中的“.log”等格式日志文件,转储到AOM中,方便您查看和检索;并且云容器引擎基于AOM进行资源监控,为您提供弹性伸缩能力。 容器日志 云审计服务 CTS 云审计服务提供云服务资源的操作记录,记录内容包括您从公有云管理控制台或者开放API
10 1.14.11 v1.17 v1.19 v1.21 适配CCE v1.21集群 0.7.1 1.14.5 v1.17 v1.19 修复监控指标无法被获取的问题 0.7.1 1.14.4 v1.17 v1.19 适配ARM64节点部署 适配containerd运行时节点 0.7
et盘 可能导致节点不可用 重置节点,具体请参见重置节点。 在节点上安装自己的其他软件 导致安装在节点上的Kubernetes组件异常,节点状态变成不可用,无法部署工作负载到此节点 卸载已安装软件,尝试恢复或重置节点,具体请参见重置节点。 修改NetworkManager的配置 节点不可用
权限内容 研发与测试 集群A的NameSpaceA 访问和操作NameSpaceA,以便进行软件开发和测试活动。 运维 集群A的NameSpaceB 访问NameSpaceB,以便进行软件开发和测试活动。 具体解决方案如下: 为不同团队创建不同用户组。 为不同用户组配置不同的权限,即进行IAM授权和RBAC授权。
表示内部特性版本。集群版本中特性或者补丁修复,或者OS支持等变更场景。其值从1开始单调递增。 Y: 表示内部特性版本的补丁版本。仅用于特性版本上线后的软件包更新,不涉及其他修改。其值从0开始单调递增。 无 允许 CCE Standard/CCE Turbo CCE集群平台版本号,表示集群版本
件。 通过控制台配置 通过kubectl配置 登录云容器引擎(CCE)控制台,单击集群名称进入集群,选择左侧导航栏的“配置中心”。 选择“监控运维配置”页签,在“日志配置”中修改Kubernetes事件上报至AOM的策略。 异常事件上报:默认开启,会将所有异常事件上报至AOM。您
Ingress控制器插件升级检查异常处理 检查NGINX Ingress控制器插件升级路径是否涉及兼容问题。 57 云原生监控插件升级检查异常处理 在集群升级过程中,云原生监控插件从3.9.0之前的版本升级至3.9.0之后的版本升级时,存在兼容性问题,需检查该插件是否开启了grafana的开关。
首先,Volcano通过静态分析,获取应用的静态特征,如:CPU、内存、存储、GPU等资源的需求,应用间亲和性、区域亲和性、云平台亲和性等。 接着,Volcano对接监控系统,获取不同云平台资源、集群资源的动态数据,以及应用运行的数据,分析其规律,获得其运行态势,如:业务分级(天/周/月)的潮汐规律性、CP
使用自定义策略时,集群中需要安装支持采集自定义指标的插件(例如Prometheus),且工作负载需正常上报并采集自定义指标。 采集自定义指标的方法及示例请参见使用云原生监控插件监控自定义指标。 自定义指标名称:自定义指标的名称,输入时可根据联想值进行选择。 指标来源:在下拉框中选择对象类型,可选择“Pod”。 期