检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
持按周期进行防爆处理。 CCE配合AOM收集工作负载的日志,在创建节点时会默认安装AOM的ICAgent(在集群kube-system命名空间下名为icagent的DaemonSet),ICAgent负责收集工作负载的日志(支持*.log、*.trace和*.out类型的文本日志
Turbo集群容器网络扩展指标的场景下,建议您关注以下配置。该插件的其他配置可按需进行设置,详情请参见云原生监控插件。 本地数据存储:此处选择使用本地存储监控数据,监控数据可选择是否对接AOM或三方监控平台。 自定义指标采集:该配置在本实践中必须选择开启,否则将无法采集容器网络扩展指标。
在集群中部署使用GPU能力的工作负载,将自动上报GPU监控指标。 访问Grafana 从Grafana可视化面板中查看Prometheus的监控数据。 前提条件 集群中已安装云原生监控插件插件。 集群中已安装CCE AI套件(NVIDIA GPU)插件,且插件版本不低于2.0.10。
云盘加密功能适用于需要高安全性或合规性要求的应用场景,可以保护数据的隐私性和自主性。本文将为您介绍如何使用数据加密服务(DEW)中管理的密钥对云盘存储卷数据进行加密。 前提条件 您已经创建好一个集群,并且在该集群中安装CCE容器存储(Everest)。 已在数据加密服务(DEW)中创建可用密钥,操作详情请参见创建密钥。
io/safe-to-evict: 'false'这个annotations时,节点不缩容。 节点上存在kube-system命名空间下的Pod(除kube-system命名空间下由DaemonSet创建的Pod),节点不缩容。 节点上如果有非controller(Deployment/Rep
在CPU初始化期之后,此时间段允许HPA以一个较宽松的标准筛选CPU度量数据。也就是说,这段时间内,即使Pods的就绪状态有所变化,HPA也会考虑它们的CPU使用数据进行扩缩容。这有助于在Pod状态频繁变化时,确保CPU使用数据被持续追踪。 配置建议:如果Pods在启动后的就绪状态发生波动
节点CPU使用率 百分比 节点CPU使用率 CPURequests水位 百分比 节点CPU Requests占节点CPU容量的百分比 CPULimits水位 百分比 节点CPU Limits占节点CPU容量的百分比 内存使用率 百分比 节点内存使用率 内存Requests水位 百分比 节点内存Requests占节点内存容量的百分比
点瓶颈。 当容器申请的资源较大时,一个小规格节点上无法运行多个容器,节点剩余资源就无法利用,存在资源浪费的情况。 使用大规格节点的优势: 网络带宽上限较大,对于大带宽类的应用,资源利用率高。 多个容器可以运行在同一节点,容器间通信延迟低,减少网络传输。 拉取镜像的效率更高。因为镜
登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“配置与密钥”,并切换至“全部命名空间”,找到名为“persistent-user-config”的配置项。 单击“更新”,对lightweight-user-config.yaml配置数据进行编辑,在operatorConfigOverride字段下增加一条配置。
情况,如果长时间达到瓶颈,可调整prometheus实例规格。 说明: PVC资源使用率的检查在云原生监控插件为“本地数据存储”时执行,该模式下,采集到的指标数据会存放入集群PV中。 prometheus工作负载近24小时内存使用率最大值是否超过80% 是 prometheus工
参见云原生监控插件。 本地数据存储:使用本地存储监控数据,监控数据可选择是否上报至AOM或三方监控平台。 自定义指标采集:该配置在本实践中必须选择开启,否则将无法采集自定义指标。 插件配置完成后,单击“安装”。 步骤二:获取Prometheus监控数据 本文中通过与Pod相关的指
建。当节点发生故障时,集群会检测到该节点不可用,该节点上的容器将在其他可用节点上进行重建。 使用数据存储(如挂载云硬盘、文件系统等)可以有效解决容器重建导致的数据丢失问题,确保重要数据实现持久化存储并能够在容器重建后继续使用。 父主题: 容器设置
DEW) 插件简介 CCE密钥管理(原名dew-provider)插件用于对接数据加密服务(Data Encryption Workshop, DEW)。该插件允许用户将存储在集群外部(即专门存储敏感信息的数据加密服务)的凭据挂载至业务Pod内,从而将敏感信息与集群环境解耦,有效避免
中挂载路径下的数据会存储在存储卷的tmp文件夹中。不填写时默认为根路径。 权限 只读:只能读容器路径中的数据卷。 读写:可修改容器路径中的数据卷,容器迁移时新写入的数据不会随之迁移,会造成数据丢失。 本例中将磁盘挂载到容器中/data路径下,在该路径下生成的容器数据会存储到云硬盘中。
使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 使用云原生监控插件监控自定义指标 使用AOM监控自定义指标 使用PrometheusRules配置普罗监控与告警规则
行缩容。 节点缩容条件 节点资源条件:当集群节点资源的Request值(CPU和内存需同时满足)连续一段时间(默认10min)低于一定百分比(默认50%)时,会触发集群缩容操作。 节点状态条件:节点处于不可用状态下超过一定时间会被自动回收,默认为20分钟。 缩容例外场景:节点满足
包周期的CCE集群到期可以直接删除吗? CCE集群包周期到期后,您可以在备份好所有数据的情况下直接删除该集群。 如果到期后您仍没有续费或删除,系统会根据资源到期时间删除该集群,请及时续费并做好数据备份工作。 父主题: 计费类
inodesFree、imagefs.available 或 imagefs.inodesFree 节点的根文件系统或镜像文件系统上的可用磁盘空间和 inode 已满足驱逐条件。 您可以扩容节点磁盘空间,详情请参见存储扩容。 PIDPressure node.kubernetes.io/pid-pressure
监控应用及资源,采集各项指标及事件等数据以分析应用健康状态,提供全面、清晰、多维度数据可视化能力。此外,您还可以根据自己的需求,采集和监控工作负载的自定义指标,实现个性化的监控策略。 资源监控指标 资源基础监控包含CPU/内存/磁盘等指标数据,您可以全面监控集群的健康状态和负荷程
典型场景:用户在创建节点时配置两个数据盘作为临时卷存储池,用户误操作删除了部分数据盘导致存储池异常。 检测周期:30秒 数据来源: vgs -o vg_name, vg_attr 检测原理:检查VG(存储池)是否存在p状态,该状态表征部分PV(数据盘)丢失。 节点持久卷存储池异常调