检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
首先,Volcano通过静态分析,获取应用的静态特征,如:CPU、内存、存储、GPU等资源的需求,应用间亲和性、区域亲和性、云平台亲和性等。 接着,Volcano对接监控系统,获取不同云平台资源、集群资源的动态数据,以及应用运行的数据,分析其规律,获得其运行态势,如:业务分级(天/周/月)的潮汐规律性、CPU敏感型、L3缓存敏感型、内存敏感型等。
问题根因 业务容器内存使用超过容器的内存限制量时,触发cgroup OOM,被系统内核终止。容器cgroup OOM在CentOS 7会偶现触发ext4文件系统卡死,ext4/jbd2会因为死锁而永远挂起。在文件系统上执行I/O的所有任务都将受到影响。 解决方法 临时解决方案:该问题触发后可以通过重启节点临时恢复。
荐您使用IAM实现权限管理。 若您使用企业项目设置子用户权限,会有如下功能限制: 在CCE控制台,集群监控获取AOM监控的接口暂不支持企业项目,因此企业项目子用户将无法查看监控相关数据。 在CCE控制台,由于创建节点时的密钥对查询接口不支持企业项目,因此企业项目子用户将无法使用“
保证,请您自行验证。 对于已经安装GPU驱动的自定义操作系统镜像,CCE无法保证其提供的GPU驱动与CCE其他GPU组件兼容(例如监控组件等)。 如果您使用不在GPU驱动支持列表内的GPU驱动版本,可能引发GPU驱动与操作系统版本、ECS实例类型、Container Runtim
方式二:应用运维管理界面 您可登录应用运维管理控制台,创建一个仪表盘,并在仪表盘中添加名为vein_overload_level的监控指标,详情请参见创建仪表盘。 监控指标对应的含义如下: 0:熔断,拒绝所有外部流量 1:重度过载,拒绝75%外部流量 2:中度过载,拒绝50%外部流量 3:轻度过载,拒绝25%外部流量
云原生告警是可观测性体系里面比较重要的一环。在云原生告警中,除了传统的CPU、内存等资源使用量的告警以外,还有容器重启等事件告警、应用访问失败等自定义的监控指标告警。 CCE的云原生告警能力是由AOM服务提供的,支持指标和事件的告警。同时,CCE集群详情中增加了告警中心能力,能支持快速配置资源等常用告警和告警查看。
已开通成本洞察功能 约束与限制 由于实际账单的获取存在两天时间延迟,开通成本洞察后,成本洞察成本数据会延迟2天显示。 使用成本洞察期间,需要保证云原生监控插件运行正常,否则影响成本洞察中命名空间、工作负载、节点池等相关视图的呈现。 操作入口 登录CCE控制台,单击集群名称进入集群。 单击左侧导航栏中的“云原生成本治理
可观测性插件配置 参数 说明 云原生监控插件 选择指标上报的AOM实例。如果没有可用实例,您可以单击“新建实例”进行创建。 AOM采集的基础指标免费,自定义指标将由AOM服务进行收费,详情请参见价格详情。关于如何采集自定义指标,请参见使用云原生监控插件监控自定义指标。 云原生日志采集插件
Nginx Ingress Controller性能调优主要分为系统参数调优和Nginx参数调优: 系统参数调优:华为云上的操作系统已经默认优化了一些常见参数,其他还需要调优的系统参数主要包括连接队列的大小、源端口的范围。系统参数调优后可以保证Nginx处理高并发请求的能力,以及在连接后端时不会因为端口耗尽而失败。
11 v1.17 v1.19 适配CCE v1.19集群 2.10.0 1.15.1 v1.15 v1.17 Prometheus是一个监控系统和时间序列库 2.10.0 父主题: 插件版本发布记录
通过控制台的集群总览页面查看控制节点监控信息。 图1 查看控制节点监控 使用Prometheus监控Master节点组件指标,并重点关注kube-apiserver的内存使用量、资源数量、QPS、请求时延。详情请参见使用Prometheus监控Master节点组件指标。 配置告警 告警是监控的延伸,在集
支持云服务访问日志(对接LTS)。 支持审计关键操作。 支持使用Metrics输出监控指标(对接云监控)。 支持告警规则配置(对接云监控)。 运维能力 自行维护组件,定期同步社区新版本。 通过配置HPA进行扩缩容。 需要主动配置规格进行调优。 全托管、免运维。 自动弹性,免配置支持超大容量。
可用区1。 当集群中卸载kube-prometheus-stack插件时,prometheus实例绑定的存储卷不会被一起删除,保留了已有的监控数据。当再次安装插件时,集群的节点可能已经进行过删除新建,如果集群中不存在可用区1的节点,则会出现该问题导致prometheus实例无法运行。
nginx-elb-svc.yaml 配置验证 登录ELB控制台,查看Service对应的ELB(本示例中名为james)。 单击ELB名称,并切换至“监控”,可以看到ELB的连接数为0。 使用kubectl命令行登录集群中的任意一个Nginx容器中,然后访问ELB的地址。 查询集群中的Nginx容器。
everest 部分代码及架构进行重构,改善代码架构,提高插件的可扩展性和稳定性 支持优雅退出 支持OBS进程监控 1.3.28 v1.19 v1.21 v1.23 支持优雅退出 支持OBS进程监控 1.3.22 v1.19 v1.21 v1.23 修复重复挂盘偶现挂载后读写失败的问题 1.3
高性能调度 CCE通过集成Volcano提供高性能计算能力。 Volcano是基于Kubernetes的批处理系统。Volcano提供了一个针对BigData和AI场景下,通用、可扩展、高性能、稳定的原生批量计算平台,方便AI、大数据、基因、渲染等诸多行业通用计算框架接入,提供高
参考排查项继续排查)。 检查节点监控 登录CCE服务控制台。 在界面中选择需要检查节点所在的集群。 在集群列表页面单击“节点管理”,切换到“节点”一栏,在异常节点所在行单击“监控”。 单击“监控”页签顶部的“查看更多”,前往运维管理页面查看历史监控记录。当节点CPU和内存负载过高
已完成部门配置 约束与限制 由于实际账单的获取存在两天时间延迟,开通成本洞察后,成本洞察成本数据会延迟2天显示。 使用成本洞察期间,要保证云原生监控插件运行正常,否则影响成本洞察中命名空间、工作负载、节点池等相关视图的呈现。 操作入口 登录CCE控制台,单击左侧导航栏中的“云原生成本治理”。
云原生观测最佳实践 云原生监控插件兼容自建Prometheus 使用云原生监控插件监控自定义指标 使用AOM监控自定义指标 使用PrometheusRules配置普罗监控与告警规则 使用Prometheus监控Master节点组件指标 监控NGINX Ingress控制器指标 监控CCE Turbo集群容器网络扩展指标
17 v1.19 修复监控指标无法被获取的问题 0.7.1 1.14.4 v1.17 v1.19 适配ARM64节点部署 适配containerd运行时节点 0.7.1 1.14.2 v1.17 v1.19 适配CCE v1.19集群 新增支持Ubuntu操作系统和安全容器场景 0.7