检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
成本计算模型 工作负载成本计算原理 工作负载成本是由Pod成本聚合而成。 Pod成本:使用监控指标和实际账单作为输入,通过CPU、内存使用量占整体节点资源比例计算出来的成本,结合Pod关联PVC存储的成本。 计算过程中,Pod的使用量为当前采样时刻下申请量(Request)和实际使用量(Real
可观测性最佳实践 云原生监控插件兼容自建Prometheus 使用云原生监控插件监控自定义指标 使用AOM监控自定义指标 使用PrometheusRules配置普罗监控与告警规则 使用Prometheus监控Master节点组件指标 监控NGINX Ingress控制器指标 监控CCE Turbo集群容器网络扩展指标
资源管理、应用编排、运维监控能力。 Kubernetes存在的问题 Kubeflow在调度环境使用的是Kubernetes的默认调度器。而Kubernetes默认调度器最初主要是为长期运行的服务设计的,对于AI、大数据等批量和弹性调度方面还有很多的不足。主要存在以下问题: 资源争抢问题
全配置建议 监控相关 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 使用云原生监控插件监控自定义指标 使用AOM监控自定义指标 使用Prom
远端文件目录挂载到容器中,数据卷中的数据将被永久保存,即使删除了容器,数据卷中的数据依然保存在存储系统中。 云硬盘性能规格 云硬盘性能的主要指标包括: IOPS:云硬盘每秒进行读写的操作次数。 吞吐量:云硬盘每秒成功传送的数据量,即读取和写入的数据量。 IO读写时延:云硬盘连续两次进行读写操作所需要的最小时间间隔。
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理 父主题: 调度
支持运维的定时巡检,可设置定时执行时间,定期检查集群风险 集群诊断健康提炼了运维专家提供的高频故障案例,分别从如下方面进行检查: 维度 检查项 运维层面 集群运维能力 集群安全组配置正确性 集群资源规划合理性 租户配额是否充足 资源与业务层面 存储插件(everest)健康程度 日志采集插件(log-agent)健康程度
CCE容器网络扩展指标 CCE容器网络扩展指标是一款容器网络流量监控管理插件。支持流量统计信息ipv4发送公网报文数和字节数、ipv4接收报文数和字节数以及ipv4发送报文数和字节数,且支持通过PodSelector来对监控后端作选择,支持多监控任务、可选监控指标,且支持用户获取P
HPA是针对Pod级别的,可以根据负载指标动态调整副本数量,但是如果集群的资源不足,新的副本无法运行的情况下,就只能对集群进行扩容。 CCE集群弹性引擎是Kubernetes提供的集群节点弹性伸缩组件,根据Pod调度状态及资源使用情况对集群的节点进行自动扩容缩容,同时支持多可用区、多实例规格、指标触发和周期
自建集群往往有着沉重的运维负担,需要运维人员自己配置管理系统和监控解决方案。企业自运维大批镜像资源,意味着要付出高昂的运维、人力、管理成本,且效率不高。 容器镜像服务支持Linux、ARM等多架构容器镜像托管。企业可以将镜像仓库迁移到容器镜像服务,节省运维成本。 如何把已有的镜像
使用自定义策略时,集群中需要安装支持采集自定义指标的插件(例如Prometheus),且工作负载需正常上报并采集自定义指标。 采集自定义指标的方法及示例请参见使用云原生监控插件监控自定义指标。 自定义指标名称:自定义指标的名称,输入时可根据联想值进行选择。 指标来源:在下拉框中选择对象类型,可选择“Pod”。
使用率等等。而这些数据的监控能力Kubernetes也没有自己实现,而是通过其他项目来扩展Kubernetes的能力。 Prometheus是一套开源的系统监控报警框架,能够采集丰富的Metrics(度量数据),目前已经基本是Kubernetes的标准监控方案。 Metrics
弹性伸缩 使用HPA+CA实现工作负载和节点联动弹性伸缩 CCE容器实例弹性伸缩到CCI服务 基于Prometheus指标的弹性伸缩实践 基于ELB监控指标的弹性伸缩实践 通过Nginx Ingress对多个应用进行弹性伸缩
metrics-server组件 容器组件 说明 资源类型 metrics-server 集群核心资源监控数据的聚合器,用于收集和聚合集群中通过Metrics API提供的资源使用指标。 Deployment 版本记录 表3 Kubernetes Metrics Server插件版本记录
应用性能管理服务(APM)当前支持给JAVA类工作负载提供调用链、拓扑等监控能力。您可为JAVA类工作负载安装APM探针,以提供更精准的问题分析与定位,协助您高效解决应用难题。 工作负载创建时和创建后,均可以对JAVA类工作负载监控进行设置。 如果您已经使用CCE部署了容器应用,您需要应用性
负载感知调度能力由Volcano与CCE云原生监控插件配合完成,开启该能力时,按照Prometheus adapt规则定义负载感知调度所需的CPU、Memory指标信息,CCE云原生监控系统按照定义的指标规则采集并保存各节点的CPU、Memory的真实负载信息,Volcano根据CCE云原生监控系统提供的CPU
在CCE中安装部署Jenkins方案概述 Jenkins是什么 Jenkins是一个开源的、提供友好操作界面的持续集成(CI)工具,起源于Hudson,主要用于持续、自动的构建/测试软件项目、监控外部任务的运行。 Jenkins用Java语言编写,可在Tomcat等流行的servlet容器中运行,也可独立运行。通
详情请参见日志概述。 监控 控制面指标:控制面指标监控有助于识别控制节点的问题风险,详情请参见监控Master指标。 应用指标:CCE支持对集群中的应用程序进行全方位的监控。除了监控Kubernetes标准指标外,您还可以在应用程序中上报符合规范的自定义指标,以提高应用程序的可观测性,详情请参见监控概述。
获取指定对象(PVC、ConfigMaps等)的指标失败。 HPA HPA获取Pod资源指标失败 FailedGetPodsMetric 重要 获取Pod资源指标失败(单个Pod的资源利用率)。 HPA HPA获取集群资源指标失败 FailedGetResourceMetric 重要 获取集群资源指标失败(整个集群的资源利用率)。
Server:提供基础资源使用指标,例如容器CPU和内存使用率。所有集群版本均可安装。 云原生监控插件:该插件支持v1.17及以后的集群版本。 根据基础资源指标进行弹性伸缩:需将Prometheus注册为Metrics API的服务,详见通过Metrics API提供基础资源指标。 根据自定义指标进行弹