检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点系统参数检查异常处理 检查项内容 检查您节点上默认系统参数是否被修改。 解决方案 如您的bms节点上bond0网络的mtu值非默认值1500,将出现该检查异常。 非默认参数可能导致业务丢包,请改回默认值。 父主题: 升级前检查异常问题排查
易受攻击主机的完全root权限,目前漏洞POC/EXP已公开,风险较高。 Polkit(PolicyKit)是一个用于在类Unix操作系统中控制系统范围权限的组件。pkexec是Plokit框架中的一部分,执行具有提升权限的命令,是sudo的替代方案。请使用Polkit的用户及时安排自检并做好安全加固。
netes原生接口,您可以完整的使用云容器引擎的所有功能,包括创建集群和节点,使用Kubernetes接口创建容器工作负载,使用CCE接口监控工作负载的使用数据等。 类型 子类型 说明 CCE接口 集群管理 集群管理接口,包括创建、删除集群的接口等。 通过这些接口,您可以创建集群、获取已创建集群的信息。
rt 通过定期回溯系统日志,检查关键组件Kubelet是否频繁重启 默认阈值:10分钟内重启10次 即在10分钟内组件重启10次表示频繁重启,将会产生故障告警。 监听对象:/run/log/journal目录下的日志 说明: Ubuntu和HCE2.0操作系统由于日志格式不兼容,暂不支持上述检查项。
成本计算模型 工作负载成本计算原理 工作负载成本是由Pod成本聚合而成。 Pod成本:使用监控指标和实际账单作为输入,通过CPU、内存使用量占整体节点资源比例计算出来的成本,结合Pod关联PVC存储的成本。 计算过程中,Pod的使用量为当前采样时刻下申请量(Request)和实际使用量(Real
云容器引擎提供多维度的监控和告警功能,配置监控告警,以便于异常时及时收到告警并进行故障定位。 云监控服务AOM:CCE默认的基础资源监控,覆盖详细的容器相关指标,并提供告警配置能力。 开源Prometheus:面向云原生应用程序的开源监控工具,并集成独立的告警系统,提供更高自由度的监控告警配置。
27 v1.28 v1.29 支持普通容器Pod粒度的UDP、TCP drop、TCP connect fail监控 支持普通容器flow粒度的UDP、TCP drop监控 支持HCE 2.0 x86和HCE 2.0 ARM 支持CCE v1.29集群 1.3.10 v1.23 v1
云原生可观测性插件 插件名称 插件简介 云原生监控插件 云原生监控插件包含Prometheus-operator和Prometheus组件,提供简单易用的端到端Kubernetes集群监控能力。 使用云原生监控插件可将监控数据与监控中心对接,在监控中心控制台查看监控数据,配置告警等。 云原生日志采集插件
准备应用运行环境 在应用分析后,您已经了解到应用所需的操作系统、运行环境等。您需要准备好这些环境。 安装Docker:应用容器化时,需要将应用构建为容器镜像。您需要准备一台机器,并安装Docker。 获取运行环境:获取运行应用的运行环境,以及对接的MongoDB数据库。 安装Docker
节点界面查看您需要的节点规格是否支持。 容器底层文件存储系统说明 Docker 1.15.6及之前集群版本Docker底层文件存储系统采用xfs格式。 1.15.11及之后版本集群新建节点或重置后Docker底层文件存储系统全部采用extfs格式。 对于之前使用xfs格式容器应用
它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。 图1 模型训练环节
开启后将禁止删除或退订集群。 集群控制节点可用区 您可查看集群控制节点数量,如果需要查看控制节点资源使用率等数据,请单击右上角“查看监控”,前往监控中心页面查看。 已安装插件 您可查看集群中已安装的插件,当集群中存在可以升级的插件时,请单击“前往升级”,在插件中心页面进行查看。 父主题:
引擎,不同的集群类型、集群版本、操作系统可能导致支持的容器引擎类型不同,请根据控制台呈现进行选择。具体场景请参见节点操作系统与容器引擎对应关系。 操作系统 选择操作系统类型,不同类型节点支持的操作系统有所不同。 公共镜像:请选择节点对应的操作系统。 私有镜像:支持使用私有镜像,私
入门指引 本文旨在帮助您了解云容器引擎(Cloud Container Engine,简称CCE)的基本使用流程以及相关的常见问题,帮助您快速上手容器服务。 您可以通过控制台、Kubectl命令行、API参考使用云容器引擎服务。 使用步骤 完整的云容器引擎使用流程包含以下步骤: 图1
AHPA通过对工作负载的历史指标进行监控,以周为维度进行建模,因此对具有明显周期性的工作负载具有更佳效果。 AHPA启动后拉取指定的工作负载过去一定时间的监控数据(至少一周,至多八周),利用统计学原理分析建模。随后每分钟一次,根据当前时间点的历史监控数据,结合未来一段时间窗口的历史数
登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 通过Pod内存监控查看内存增长曲线,确定异常出现时间。 根据监控、内存增长时间点、日志、进程名等信息,排查Pod内对应进程是否存在内存泄漏。
Node 节点纳管失败 NodeInstallFailed 次要 检查集群纳管节点是否成功。 Node 节点操作系统内核故障 KernelOops 次要 检查节点操作系统内核是否故障。 Node 节点内存不足强杀进程 OOMKilling 次要 节点上的Pod内存使用超过Limit值导致进程终止。
源诊断能力,帮助运维团队更高效地定位和解决问题。 该诊断工具通过综合使用Kubernetes原生API、Kubernetes事件、日志以及监控指标,对问题进行全面的分析和判定,并提供具体的修复建议。这种综合诊断方法不仅提高了故障定位的准确性,还显著减少了运维人员的工作负担,从而提升了整体运维效率。
问题根因 业务容器内存使用超过容器的内存限制量时,触发cgroup OOM,被系统内核终止。容器cgroup OOM在CentOS 7会偶现触发ext4文件系统卡死,ext4/jbd2会因为死锁而永远挂起。在文件系统上执行I/O的所有任务都将受到影响。 解决方法 临时解决方案:该问题触发后可以通过重启节点临时恢复。
ntroller、kube-scheduler、etcd-server组件进行监控,您需要在集群中安装云原生监控插件。通过grafana插件,您可以使用Kubernetes监控概述仪表盘来可视化和监控 Kubernetes API服务器请求以及延迟和etcd延迟指标。 在集群中自