检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Administrator 监控中心、告警中心在运行过程中需要访问SMN获取联系组信息,因此需要获得该权限。 CCE AOM Administrator 监控中心、告警中心在运行过程中需要访问AOM获取监控指标信息,因此需要获得该权限。 CCE LTS Administrator 监控中心、告警中
源诊断能力,帮助运维团队更高效地定位和解决问题。 该诊断工具通过综合使用Kubernetes原生API、Kubernetes事件、日志以及监控指标,对问题进行全面的分析和判定,并提供具体的修复建议。这种综合诊断方法不仅提高了故障定位的准确性,还显著减少了运维人员的工作负担,从而提升了整体运维效率。
27 v1.28 v1.29 支持普通容器Pod粒度的UDP、TCP drop、TCP connect fail监控 支持普通容器flow粒度的UDP、TCP drop监控 支持HCE 2.0 x86和HCE 2.0 ARM 支持CCE v1.29集群 1.3.10 v1.23 v1
单击“立即开通”选择要开通的集群后,单击“确认开通”。 开通过程中系统将自动执行如下步骤:安装云原生监控插件、成本标签激活、创建默认租户OBS桶、订阅账单数据。等待3-5分钟,即可进入洞察界面。 安装云原生监控插件:为成本洞察功能提供基础监控数据。 成本标签激活:成本标签激活后费用中心导出的账
创建守护进程集(DaemonSet) 操作场景 云容器引擎(CCE)提供多种类型的容器部署和管理能力,支持对容器工作负载的部署、配置、监控、扩容、升级、卸载、服务发现及负载均衡等特性。 其中守护进程集(DaemonSet)可以确保全部(或者某些)节点上仅运行一个Pod实例,当有节点加入集群时,也会为其新增一个
04或Huawei Cloud EulerOS 2.0操作系统的节点上不存在此问题,CentOS/Ubuntu18.04/EulerOS 2.5/EulerOS 2.9(低版本内核)/Huawei Cloud EulerOS 1.1操作系统则存在此问题。 解决方法 考虑采用NodeLocal
检查步骤 业务不同,验证的方式也有所不同,建议您在升级前确认适合您业务的验证方式,并在升级前后均执行一遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等 解决方案 若集群升级后您的在线业务有异常,请联系技术支持人员。 父主题: 升级后验证
成本计算模型 工作负载成本计算原理 工作负载成本是由Pod成本聚合而成。 Pod成本:使用监控指标和实际账单作为输入,通过CPU、内存使用量占整体节点资源比例计算出来的成本,结合Pod关联PVC存储的成本。 计算过程中,Pod的使用量为当前采样时刻下申请量(Request)和实际使用量(Real
云容器引擎提供多维度的监控和告警功能,配置监控告警,以便于异常时及时收到告警并进行故障定位。 云监控服务AOM:CCE默认的基础资源监控,覆盖详细的容器相关指标,并提供告警配置能力。 开源Prometheus:面向云原生应用程序的开源监控工具,并集成独立的告警系统,提供更高自由度的监控告警配置。
它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。 图1 模型训练环节
告警及集群中应用的指标告警。在集群发生故障时能够及时发现并预警,协助您维护业务稳定性。 商用 5 监控中心上线 监控中心提供容器洞察、健康诊断、仪表盘等容器监控与诊断能力,可实时监控应用及资源,采集各项指标及事件等数据以分析应用健康状态,提供全面、清晰、多维度数据可视化能力。 商用
云原生可观测性插件 插件名称 插件简介 云原生监控插件 云原生监控插件包含Prometheus-operator和Prometheus组件,提供简单易用的端到端Kubernetes集群监控能力。 使用云原生监控插件可将监控数据与监控中心对接,在监控中心控制台查看监控数据,配置告警等。 云原生日志采集插件
返回控制台的“监测灰度运行状态”页面查看v1和v3版本的实时流量监控情况。 图11 流量监控详情 在“流量监控”页面,您可以查看Bookinfo应用各微服务之间的实时拓扑。ASM提供的流量监控功能,可监控微服务之间的拓扑、会话请求调用链、各环节耗时和RPS、RT等性能状态。 图12 流量监控拓扑 从拓扑图可以看出,r
和统一管理,应用和数据可在云上云下无缝迁移,满足复杂业务系统对弹性伸缩、灵活性、安全性与合规性的不同要求,并可统一运维多个云端资源,从而实现资源的灵活使用以及业务容灾等目的。 优势 云上容灾 通过云容器引擎,可以将业务系统同时部署在多个云的容器服务上,统一流量分发,单云故障后能够
通任务(Job)使用,主要面向大数据分析、静态网站托管、在线视频点播、基因测序、智能视频监控、备份归档、企业云盘(网盘)等场景。 相关参考 CCE支持挂载第三方租户的OBS桶,包含OBS并行文件系统(优先)和OBS对象桶,使用方法请参见挂载第三方租户的对象存储。 父主题: 对象存储卷
Node 节点纳管失败 NodeInstallFailed 次要 检查集群纳管节点是否成功。 Node 节点操作系统内核故障 KernelOops 次要 检查节点操作系统内核是否故障。 Node 节点内存不足强杀进程 OOMKilling 次要 节点上的Pod内存使用超过Limit值导致进程终止。
您可以设置节点或节点池安装后执行脚本,在新建节点或节点池时通过脚本配置RuntimeMaxUse大小。 首先您需要确认创建节点或节点池的操作系统,例如CentOS 7.6。 在同集群、同操作系统的节点上进行脚本命令可行性的测试,在节点上手动执行命令,确认脚本命令可行。手动执行脚本命令请参考修改节点RuntimeMaxUse。
17集群版本已停止维护,修复该问题建议升级至1.19及以上集群版本,并通过节点重置为最新版本的操作系统修复该问题,确保内核版本高于3.10.0-1062.12.1.el7.x86_64。 父主题: 操作系统问题说明
云原生告警是可观测性体系里面比较重要的一环。在云原生告警中,除了传统的CPU、内存等资源使用量的告警以外,还有容器重启等事件告警、应用访问失败等自定义的监控指标告警。 CCE的云原生告警能力是由AOM服务提供的,支持指标和事件的告警。同时,CCE集群详情中增加了告警中心能力,能支持快速配置资源等常用告警和告警查看。
已开通成本洞察功能 约束与限制 由于实际账单的获取存在两天时间延迟,开通成本洞察后,成本洞察成本数据会延迟2天显示。 使用成本洞察期间,需要保证云原生监控插件运行正常,否则影响成本洞察中命名空间、工作负载、节点池等相关视图的呈现。 操作入口 登录CCE控制台,单击集群名称进入集群。 单击左侧导航栏中的“云原生成本治理