检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
网络类服务 CCE支持集群下容器发布为对外访问的服务,因此需要获取访问虚拟私有云、弹性负载均衡等服务的权限。 容器与监控类服务 CCE集群下容器支持镜像拉取、监控和日志分析等功能,需要获取访问容器镜像、应用管理等服务的权限。 当您同意授权后,CCE将在IAM中自动创建账号委托,将
CCE事件列表 在集群运行过程中,CCE会上报一系列事件至AOM,您可以根据自身需求添加事件类告警,监控集群数据面和控制面组件的健康状态,及时发现和解决问题,保证集群的稳定性和可靠性。 集群数据面事件:集群运行过程中与用户操作相关的事件,包括工作负载、网络、节点、存储、弹性伸缩等事件。
已完成部门配置 约束与限制 由于实际账单的获取存在两天时间延迟,开通成本洞察后,成本洞察成本数据会延迟2天显示。 使用成本洞察期间,要保证云原生监控插件运行正常,否则影响成本洞察中命名空间、工作负载、节点池等相关视图的呈现。 操作入口 登录CCE控制台,单击左侧导航栏中的“云原生成本治理”。
告警及集群中应用的指标告警。在集群发生故障时能够及时发现并预警,协助您维护业务稳定性。 商用 5 监控中心上线 监控中心提供容器洞察、健康诊断、仪表盘等容器监控与诊断能力,可实时监控应用及资源,采集各项指标及事件等数据以分析应用健康状态,提供全面、清晰、多维度数据可视化能力。 商用
级高的业务SLO。 资源分级管控为业务潮汐明显的在线业务间混部、在线和离线业务混部奠定了基础。解决了应用预留资源较多、资源无法分时复用的问题。 在线作业与离线作业 从业务是否一直在线的角度看,其类型可分为在线作业和离线作业。 在线作业:一般运行时间长,服务流量呈周期性,资源存在潮
io/custom-endpoints AOM监控指标上报参数,可将指定指标上报是AOM服务。 具体使用请参见使用AOM监控自定义指标。 - prometheus.io/scrape Prometheus指标上报参数,值为true表示当前负载开启上报。 具体使用请参见使用云原生监控插件监控自定义指标。 - prometheus
告警中心中的指标类告警规则依赖云原生监控插件上报指标数据到AOM Prometheus实例,需要开通监控中心。当您的集群未安装插件或者在安装插件时未对接AOM Prometheus实例,告警中心将不会创建指标类告警规则。开通监控中心请参考开通监控中心。 表1中使用problem_g
CCE是否支持账户余额变动提醒? 系统会以邮件、短信形式给客户发送账户余额变动通知,包括账户余额调整、充值到账、客户在线充值等。 父主题: 计费类
在CCE集群中使用工作负载Identity的安全配置建议 工作负载指标监控实践 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 工作负载弹性伸缩实践
负载感知调度能力由Volcano与CCE云原生监控插件配合完成,开启该能力时,按照Prometheus adapt规则定义负载感知调度所需的CPU、Memory指标信息,CCE云原生监控系统按照定义的指标规则采集并保存各节点的CPU、Memory的真实负载信息,Volcano根据CCE云原生监控系统提供的CPU
支持通过Access Log采集日志。 支持通过Prometheus进行监控和告警配置。 支持云服务访问日志(对接LTS)。 支持审计关键操作。 支持使用Metrics输出监控指标(对接云监控)。 支持告警规则配置(对接云监控)。 运维能力 自行维护组件,定期同步社区新版本。 通过配置HPA进行扩缩容。
kubelet健康检查端口 10250 TCP kubelet服务端口,提供节点上工作负载的监控信息和容器的访问通道 10255 TCP kubelet只读端口,提供节点上工作负载的监控信息 动态端口(与宿主机限制的范围有关,比如 内核参数 net.ipv4.ip_local_port_range)
开通Region视角的成本洞察 开通单集群视角成本洞察 开通成本洞察需要安装云原生监控插件,插件采集的监控指标将上报至AOM实例,AOM针对基础指标免费,自定义指标由AOM服务收费,具体请参考价格详情。成本洞察能力使用的监控指标均为基础指标。 开通成本洞察会在“华北-北京四”区域创建一个OBS
云容器引擎提供多维度的监控和告警功能,配置监控告警,以便于异常时及时收到告警并进行故障定位。 云监控服务AOM:CCE默认的基础资源监控,覆盖详细的容器相关指标,并提供告警配置能力。 开源Prometheus:面向云原生应用程序的开源监控工具,并集成独立的告警系统,提供更高自由度的监控告警配置。
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理 父主题: 调度
27 v1.28 v1.29 支持普通容器Pod粒度的UDP、TCP drop、TCP connect fail监控 支持普通容器flow粒度的UDP、TCP drop监控 支持HCE 2.0 x86和HCE 2.0 ARM 支持CCE v1.29集群 1.3.10 v1.23 v1
库同步搬迁上云,可以使用数据复制服务 DRS帮助完成数据库迁移。DRS服务具有实时迁移、备份迁移、实时同步、数据订阅和实时灾备等多种功能。请由运维或者开发人员进行数据库的迁移,详情请参见跨云数据库在线迁移。完成迁移后,可参考数据库更新适配进行对接。 存储迁移 若您的集群对接了对象
Operator部署在系统命名空间kube-system中,因此ClickHouse Operator能够监控Kubernetes中所有的命名空间的相关资源。若ClickHouse Operator部署在其他命名空间中,则只会监控该特定命名空间内的资源。 kubectl apply -f clickhous
一: Kubernetes Metrics Server:提供基础资源使用指标,例如容器CPU和内存使用率。所有集群版本均可安装。 云原生监控插件:该插件支持v1.17及以后的集群版本。 根据基础资源指标进行弹性伸缩:需将Prometheus注册为Metrics API的服务,详见通过Metrics
的各种工作负载(Deployment/StatefulSet)和普通任务(Job)使用,主要面向大数据分析、静态网站托管、在线视频点播、基因测序、智能视频监控、备份归档、企业云盘(网盘)等场景。 相关参考 CCE支持挂载第三方租户的OBS桶,包含OBS并行文件系统(优先)和OBS