检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE节点故障检测 CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。node-problem-
6 kubelet<v1.16.11 漏洞修复方案 修改主机内核参数配置net.ipv6.conf.all.accept_ra值为0,以拒绝接收IPv6路由发布。 业务容器结合使用TLS和适当的证书验证,防止中间人欺骗。 禁止在Pod中设置CAP_NET_RAW能力,防止恶意容器篡改IPv6路由:
原agent模式:关闭本地数据存储,且监控数据上报至AOM服务和监控数据上报至第三方监控平台至少开启其中之一。 原server模式:开启本地数据存储,同时支持开启监控数据上报至AOM服务或监控数据上报至第三方监控平台。 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,
费。关于免费指标详情请参见基础指标-容器指标。 对接第三方监控平台 开启后,支持将普罗数据上报至第三方监控平台,您需要提前获取第三方监控平台的数据上报地址及身份认证凭据。详情请参见CCE云原生监控插件对接第三方监控平台。 日志配置 采集配置 CCE可以帮助您快速采集 Kubernetes
相关服务 云容器引擎(CCE)与云容器实例(CCI)的区别是什么? 云容器引擎(CCE)和应用管理与运维平台(ServiceStage)的区别是什么?
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
假设集群A和集群B位于同一VPC内,且该VPC内已存在一个ELB。配置同VPC内跨集群访问,集群A的Service接收流量权重设置为80,集群B的Service接收流量权重设置为20。步骤如下: 在集群A中创建Service。 apiVersion: v1 kind: Service
d时,转发规则会匹配到/first/(.*)/(.*)/end,重写路径中的${1}会替换为aaa,${2}会替换为bbb,最终后端服务器接收到的请求路径为/aaa/bbb。 注解:Ingress有一些CCE定制的高级功能,通过注解annotations实现。在使用kubectl
网络总流入速率:负载的所有Pod的容器在不同的时间段的每秒钟接收的总字节数。 网络发送丢包率:负载的所有Pod的容器在不同的时间段的发送丢失的数据包总量占发送的数据包总量的比例。 网络接收丢包率:负载的所有Pod的容器在不同的时间段的接收丢失的数据包总量占接收的数据包总量的比例。 Pod相关指标 Pod
x86 EulerOS 2.10 x86 IPv4接收报文数 dolphin_ip4_rcv_pkt pod runc/kata v1.19及以上 1.1.2 EulerOS 2.9 x86 EulerOS 2.10 x86 IPv4接收字节数 dolphin_ip4_rcv_byte
告警中心FAQ 如何停止接收告警? 在“告警中心 > 默认联系组”页面对确认订阅的终端,执行删除即可。 图1 删除联系组 为什么告警清除之后还会继续发送告警? 告警清除仅清除告警规则页面的统计,如该告警持续达到阈值或者异常事件持续发生,仍会产生告警。 告警中心的联系组支持钉钉、飞书等么?
1所示。 Jenkins Master负责管理任务(Job),为了能够利用Kubernetes平台上的资源,需要在Master上安装Kubernetes的插件。 Kubernetes平台负责产生Pod,用作Jenkins Agent执行Job任务。当Jenkins Master上有Job被调度时,Jenkins
容器CPU受限:Pod的每个容器在不同的时间段的CPU受限时间所占的比例。 容器网络丢包率:Pod的每个的容器在不同的时间段接收丢失的数据包总量占接收的数据包总量的比例。 其他指标 Pod 历史状态:Pod在不同时间段所处的状态。 容器历史状态:Pod的每个容器在不同的时间段所处的状态。
与上游服务器建立连接花费的时间 nginx_ingress_controller_header_duration_seconds 基础指标 从上游服务器接收第一个报头所花费的时间 nginx_ingress_controller_ingress_upstream_latency_seconds
参考新建节点中的DNS配置还原。 节点被删除 该节点不可用 不可恢复。 重装操作系统 节点组件被删除,节点不可用 重置节点,具体请参见重置节点。 升级内核或容器平台依赖组件(如openvswitch/ipvlan/docker/containerd) 可能导致节点无法使用或网络异常 说明: 节点运行依
16-r20,v1.21及以上形如v1.21,v1.23,详细请参考CCE集群版本号说明。 platformVersion String CCE集群平台版本号,表示集群版本(version)下的内部版本。用于跟踪某一集群版本内的迭代,集群版本内唯一,跨集群版本重新计数。platformVersion格式为:cce
索、告警快速配置的能力。用户可以通过告警中心一键配置常用的告警规则。 AOM服务 华为云应用运维管理服务,是云上应用的一站式立体化运维管理平台,是云上监控、告警的基础。 SMN服务 华为云的消息通知服务,是云上应用发送告警或通知的依赖服务。在云原生场景中,在AOM服务触发的告警将
yaml 在cluster-2集群中部署相同的应用,重复执行以上命令,创建相同的工作负载。 步骤2:配置流量复制 cluster-2作为流量的接收方,不需要进行任何配置修改,只需要在cluster-1上配置即可。 在将cluster-1中应用的访问流量复制到cluster-2中对应的
生效。 Prometheus插件将自动推送告警至Alertmanager,如果想配置告警的接收方,可以通过配置monitoring命名空间下名称为alertmanager的密钥来配置告警接收方。详细配置可参考alertmanager的文档:https://prometheus.i
首先,Volcano通过静态分析,获取应用的静态特征,如:CPU、内存、存储、GPU等资源的需求,应用间亲和性、区域亲和性、云平台亲和性等。 接着,Volcano对接监控系统,获取不同云平台资源、集群资源的动态数据,以及应用运行的数据,分析其规律,获得其运行态势,如:业务分级(天/周/月)的潮汐规