检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
APIServer视图 提供了Kubernetes核心组件APIServer主要监控视图,帮助您更好的监控APIServer的运行状态。主要包括APIServer组件的请求、资源、工作队列等相关指标。 指标说明 APIServer视图暴露的指标包括请求指标、工作队列指标和资源指标,具体说明如下:
集群视图 基于集群的指标和PromQL语句,提供了集群节点、CPU、内存、网络、磁盘等关键资源相关图表,帮助您了解整体集群的资源运行状态。接下来主要从指标说明、指标清单两个部分来进行图表的说明,其中图表中对于数值过大的字节(bytes)会换算为MB、KB、GB等。 指标说明 集群
Kubelet视图 Kubelet是运行在集群中每个节点上的代理程序,它提供了一些指标可以更好地了解集群的运行状态。 指标说明 Kubelet视图暴露的指标如下: 表1 Kubelet图表说明 视图名称 单位 说明 运行中Kubelet 个 集群运行中的kubelet的数量 运行中Pod
步骤一:安装云原生监控插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”。 在“插件中心”页面右侧找到云原生监控插件,单击“安装”。 建议您关注以下配置,其他配置可按需进行设置。详情请参见云原生监控插件。 本地数据存储:使用本地存储监控数据,监控数据可选择是否上报至AOM或三方监控平台。
登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“健康中心”。 您可以在不开通监控中心的情况下,进行基础的集群健康诊断。如果想体验更丰富的诊断能力,请参考开通监控中心开通。 配置定时巡检规则 在“健康诊断”页面右上角打开“定时巡检”开关,并配置定时巡检启动的时间
Node视图 从节点视角出发,加入了节点资源、网络、磁盘等关键指标呈现,帮助您掌控节点运行状况。 指标说明 Node视图暴露的指标如下: 图1 Node资源指标 表1 Node资源指标说明 指标名称 单位 说明 节点CPU使用率 百分比 节点CPU使用率 CPURequests水位
Storage Service,OBS)提供海量、安全、高可靠、低成本的数据存储能力,可供用户存储任意类型和大小的数据。适合企业备份/归档、视频点播、视频监控等多种数据存储场景。 专属分布式存储服务(Dedicated Distributed Storage Service,DSS)可以为
要有如下几个: 10250 –port:kubelet服务与API Server通信的端口。 10248 –healthz-port:健康检查服务的端口。 10255 –read-only-port:只读端口,用于对外提供监控指标。 父主题: 节点运行
node.cloudprovider.kubernetes.io/uninitialized:如果 kubelet 启动时指定了一个“外部”云平台驱动, 它将给当前节点添加一个污点将其标志为不可用。在 cloud-controller-manager 的一个控制器初始化这个节点后,kubelet
基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。
21以上,您需要将停止维护的Prometheus插件迁移至云原生监控插件,以获取后续的技术支持。本文将指导您将已经停止维护的Prometheus插件迁移至云原生监控插件。 云原生监控插件与Prometheus插件的对比如下: 云原生监控插件 Prometheus插件(停止维护) 云原生监控插件是基于Prometheu
CCE容器网络扩展指标 插件介绍 CCE容器网络扩展指标插件(dolphin)是一款容器网络流量监控管理插件,支持CCE Turbo集群非主机网络容器的流量统计,以及节点内容器联通性健康检查。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object
件管理、应用调度、监控与运维等容器全栈能力,为您提供一站式容器平台服务。借助云容器引擎,您可以在华为云上轻松部署、管理和扩展容器化应用程序。 应用管理与运维平台(ServiceStage) ServiceStage应用管理与运维平台是一个应用托管和微服务管理平台,可以帮助企业简化
角的可视化视图,支持集群、节点、工作负载和Pod等多种维度的监控视图,支持多级下钻与关联分析。仪表盘功能内置常见的容器监控大盘,如Kubernetes APIServer组件监控、CoreDNS组件监控和PVC监控等。 日志中心 CCE日志中心集成了云日志服务LTS。启用日志采集
迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。 Kubernetes存在的问题 Kubeflow在调度环境使用的是Kubernetes的默认调度器
Prometheus(停止维护) 插件简介 Prometheus是一套开源的系统监控报警框架。它启发于Google的borgmon监控系统,由工作在SoundCloud的Google前员工在2012年创建,作为社区开源项目进行开发,并于2015年正式发布。2016年,Prometheus正式加入Cloud
10:36 华为云云原生FinOps解决方案,释放云原生最大价值 CCE云原生观测中心 介绍CCE云原生观测中心 10:36 新一代云原生可观测平台 入门操作 容器基础 了解容器基础使用方法 19:38 1 了解容器基础使用方法 Kubernetes集群架构 介绍Kubernetes集群架构
业务不同,验证的方式也有所不同,建议您在升级前确认适合您业务的验证方式,并在升级前后均执行一遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等 解决方案 若集群升级后您的在线业务有异常,请联系技术支持人员。 父主题: 升级后验证
用。 监控 您可以通过CCE控制台查看工作负载和容器组的CPU和内存占用情况,以确定需要的资源规格。本文以无状态工作负载为例说明如何使用监控功能。 登录CCE控制台,进入一个已有的集群,在左侧导航栏中选择“工作负载”。 选择“无状态负载”页签,单击已创建工作负载后的“监控”。在监
重装时指定将修改节点名称,且服务器名称会同步修改。默认以服务器当前名称作为节点名称。 命名规则:以小写字母开头,由小写字母、数字、中划线(-)、点(.)组成,长度范围1-56位。 serverConfig 否 ReinstallServerConfig object 服务器配置 volumeConfig