检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
主机视图 从主机视角出发,监控主机的资源占用与健康状态,查看主机的磁盘、文件系统等常用系统设备指标,帮助您掌控节点运行状况。 指标说明 主机视图暴露的指标具体说明如下: 图1 主机资源指标 表1 视图说明 图表名称 单位 说明 CPU使用率 百分比 每个CPU核的使用率 平均负载
出修复建议。 监控中心 监控中心提供不同维度的数据洞察、仪表盘等功能。监控中心提供容器视角的可视化视图,支持集群、节点、工作负载和Pod等多种维度的监控视图,支持多级下钻与关联分析。仪表盘功能内置常见的容器监控大盘,如Kubernetes APIServer组件监控、CoreDNS组件监控和PVC监控等。
控策略。 资源监控指标 资源基础监控包含CPU/内存/磁盘等指标数据,您可以全面监控集群的健康状态和负荷程度,具体请参见监控概述。您可以在CCE控制台从集群、节点、工作负载等维度查看这些监控指标数据,也可以在AOM中查看。 自定义指标 CCE支持采集应用程序中的自定义指标并上传到
云原生监控插件升级检查异常处理 检查项内容 在集群升级过程中,云原生监控插件从3.9.0之前的版本升级至3.9.0之后的版本升级时,存在兼容性问题,需检查该插件是否开启了grafana的开关。 解决方案 由于云原生监控插件在3.9.0之后的版本,不再聚合grafana的能力,因此
kubelet和kube-proxy授权问题漏洞公告(CVE-2020-8558) 漏洞详情 Kubernetes官方发布安全公告,其核心组件kube-proxy存在主机边界绕过漏洞(CVE-2020-8558)。利用漏洞攻击者可能通过同一局域网下的容器,或在集群节点上访问同一个二层域下的相邻节点上绑定监听了本地127
iptables简介 iptables是一个Linux内核功能,提供了大量的数据包处理和过滤方面的能力。它可以在核心数据包处理管线上用Hook挂接一系列的规则。iptables模式中kube-proxy 在NAT pre-routing Hook中实现NAT和负载均衡功能。对于每个Serv
不支持CSI和Flexvolume插件在同一个集群中使用。 不支持将v1.13及以下版本集群的Flexvolume插件转变到CSI插件,v1.13版本的集群可以通过升级集群版本切换为CSI插件,详情请参见集群升级路径。 父主题: 存储管理-Flexvolume(已弃用)
CoreDNS视图 PVC视图 Kubelet视图 Prometheus Server视图 Prometheus Agent视图 父主题: 监控中心
监控运维配置 CCE为您提供监控应用及资源的能力,支持采集各项指标及事件等数据以分析应用健康状态,您可以通过“配置中心 > 监控运维配置”统一调整监控运维参数。 您需要开通监控中心,以使用监控运维配置的所有功能。 监控配置 采集配置 系统预置采集:可视化管理云原生监控插件的监控采集任务。详情请参见管理监控采集任务。
er_duration_seconds_count Counter 销毁和更新的数量 kubelet_cgroup_manager_duration_seconds_bucket Histogram 销毁和更新操作的耗时分布情况 kubelet_pleg_relist_duration_seconds_count
XGPU视图 XGPU是虚拟化的GPU设备,从XGPU视图可以在节点、GPU卡、容器等多个角度监控XGPU虚拟化设备的显存、算力分配率,帮助您掌控GPU运行状况。 指标说明 图1 XGPU资源指标 表1 XGPU视图图表说明 图表名称 单位 说明 集群-XGPU设备显存使用率 百分比
class 根据上一步查询到ELB实例ID,使用查询监听器接口查询监听器ID。 获取ELB监控数据。 ELB的调用CES批量查询监控数据接口,查询ELB的监控数据,ELB详细的监控数据指标请参见ELB监控指标说明。例如如下几种参数 m1_cps:并发连接数 m5_in_pps:流入数据包数
返回控制台的“监测灰度运行状态”页面查看v1和v3版本的实时流量监控情况。 图11 流量监控详情 在“流量监控”页面,您可以查看Bookinfo应用各微服务之间的实时拓扑。ASM提供的流量监控功能,可监控微服务之间的拓扑、会话请求调用链、各环节耗时和RPS、RT等性能状态。 图12 流量监控拓扑 从拓扑图可
云容器引擎(CCE)提供多种类型的容器部署和管理能力,支持对容器工作负载的部署、配置、监控、扩容、升级、卸载、服务发现及负载均衡等特性。 其中守护进程集(DaemonSet)可以确保全部(或者某些)节点上仅运行一个Pod实例,当有节点加入集群时,也会为其新增一个 Pod 。 当有节点从集群移除时,这些Pod也会被回收。删除
守护进程集(DaemonSet) DaemonSet(守护进程集)在集群的每个节点上运行一个Pod,且保证只有一个Pod,非常适合一些系统层面的应用,例如日志收集、资源监控等,这类应用需要每个节点都运行,且不需要太多实例,一个比较好的例子就是Kubernetes的kube-proxy。 Daemo
在“插件中心”页面右侧找到云原生监控插件,单击“安装”。 在监控CCE Turbo集群容器网络扩展指标的场景下,建议您关注以下配置。该插件的其他配置可按需进行设置,详情请参见云原生监控插件。 本地数据存储:此处选择使用本地存储监控数据,监控数据可选择是否对接AOM或三方监控平台。 自定义指标采
eus监控了哪些目标。 图2 查看监控目标 监控NGINX Ingress控制器指标 访问Prometheus,在“Graph”页面中,查看NGINX Ingress控制器指标。 图3 查看NGINX Ingress控制器监控指标 表1 NGINX Ingress控制器监控指标 指标
创建VPC和子网 背景信息 在创建集群之前,您需要创建虚拟私有云(VPC),为CCE服务提供一个安全、隔离的网络环境。 如果用户已有VPC,可重复使用,不需多次创建。 创建VPC 登录管理控制台,选择“网络 > 虚拟私有云 VPC”。 在虚拟私有云控制台,单击右上角的“创建虚拟私有云”,按照提示完成创建。
集群视图 基于集群的指标和PromQL语句,提供了集群节点、CPU、内存、网络、磁盘等关键资源相关图表,帮助您了解整体集群的资源运行状态。接下来主要从指标说明、指标清单两个部分来进行图表的说明,其中图表中对于数值过大的字节(bytes)会换算为MB、KB、GB等。 指标说明 集群
Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,