检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
PD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。node-problem-detector可以作为DaemonSet运行, 也可以独立运行。 字段说明 表1
挂载了EVS卷的负载进行扩容,新Pod会因为无法挂载云硬盘导致无法成功启动。 CCE容器弹性引擎插件的资源使用量主要受集群中总容器数量和伸缩策略数量影响,通常场景下建议每5000容器配置CPU 500m, 内存1000Mi资源,每1000伸缩策略CPU 100m,内存500Mi。
的指标期望值)才进行伸缩,避免短时间的指标抖动造成异常。 步长策略:扩/缩容的步长,可设置一定时间内扩/缩容Pod数量或百分比。在存在多条策略时,可以选择使Pod数量最多或最少的策略。 系统策略 指标:可选择“CPU利用率”或“内存利用率”。 说明: 利用率 = 工作负载所有Pod实际资源使用量的平均值
Yum <–> CentOS Pip <–> Python Helm的整体架构如下图: Kubernetes的应用编排存在着一些问题,Helm可以用来解决这些问题,如下: 管理、编辑与更新大量的Kubernetes配置文件。 部署一个含有大量配置文件的复杂Kubernetes应用。 分
当节点数已到达集群规模上限、所属节点池的节点数上限或该规格的节点数上限时,将不会触发指标扩容。 当节点数量、CPU、内存达到节点扩容资源上限时,将不会触发指标扩容。 执行动作:达到触发条件后所要执行的动作。 自定义:为节点池增加指定数量的节点。 自动计算:当达到触发条件时,自动扩容节点,将分配率恢复到触发条件以下。计算公式如下:
如需将GPU事件同步上报至AOM,集群中需安装云原生日志采集插件,您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件 当GPU显卡出现异常时,系统会将出现问题的GPU设备进行隔离,详细事件如表1所示。 表1 GPU插件隔离事件 事件原因 详细信息 描述 隔离结果 GPUMemoryError Device=%s
署Pod的用户都可以滥用kernel.core_pattern内核参数,在集群中的任何节点上以root身份实现容器逃逸和执行任意代码。 该问题已被收录为CVE-2022-0811。 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 容器逃逸 CVE-2022-0811
x版本发布记录 插件版本 支持的集群版本 更新特性 社区版本 2.2.82 v1.23 v1.25 修复部分问题 1.5.1 2.2.53 v1.23 v1.25 修复部分问题 1.5.1 2.2.52 v1.23 v1.25 同一集群支持安装多套NGINX Ingress控制器
集群规格为1000节点以下时,默认值100 集群规格为1000节点及以上时,默认值200 终止状态pod触发回收的数量阈值 terminated-pod-gc-threshold 集群中可保留的终止状态Pod数量,终止状态Pod超出该数量时将会被删除。 说明: 该参数设置为0时,表示保留所有终止状态的Pod。 默认:1000
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
败等现象,极端场景下甚至会引起集群内业务大面积解析失败。本文介绍Kubernetes集群中CoreDNS配置优化的最佳实践,帮助您避免此类问题。 解决方案 CoreDNS配置优化包含客户端优化及服务端优化。 在客户端,您可以通过优化域名解析请求来降低解析延迟,通过使用合适的容器镜像、节点DNS缓存NodeLocal
CCE插件采用Helm模板方式部署,修改或升级插件请从插件配置页面或开放的插件管理API进行操作。勿直接后台直接修改插件相关资源,以免插件异常或引入其他非预期问题。 插件Pod优先级较高,在集群资源不足时会抢占业务Pod资源,可能导致业务Pod被驱逐重建。 容器调度与弹性插件 插件名称 插件简介 Volcano调度器
日志中心概述 Kubernetes日志可以协助您排查和诊断问题。本文介绍CCE如何通过多种方式进行Kubernetes日志管理。 CCE提供给您多种方式进行Kubernetes日志管理。 您可以方便地使用CCE 云原生日志采集插件采集应用日志并上报LTS,从而更好地利用LTS日志
Turbo 当某区域健康时,在节点故障的情况下每秒删除 Pods 的比例 配置建议: 结合集群规模合理设置,建议按比例折算后每批迁移pod数量不超过300 迁移速率设置过大可能引入集群过载风险,同时每批迁移重调度的pod过多,大量pod无法及时调度,影响整体故障恢复时间 次级节点迁移速率
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
G),对用户的影响极大,解决问题周期较长,甚至有时不得不回滚到前一版本,严重影响了用户体验。 解决方案 长期以来,业务升级逐渐形成了几个发布策略:灰度发布、蓝绿发布、A/B测试、滚动升级以及分批暂停发布,尽可能避免因发布导致的流量丢失或服务不可用问题。 本文着重介绍灰度发布和蓝绿发布的原理及实践案例。
大数据分析、静态网站托管、在线视频点播、基因测序、智能视频监控、备份归档、企业云盘(网盘)等。 混合负载,专属分布式存储可同时支持HPC、数据库、Email、OA办公、Web等多个应用混合部署 高性能计算 OLAP应用 容量 TB级别 SFS 1.0:PB级别 SFS 3.0:EB级别
会出现对端Pod的路由规则生效慢的情况。在这种情况下,可以利用Pod延时启动的能力进行规避。 您也可以使用企业路由器连接对端VPC来解决该问题,详情请参见集群通过企业路由器连接对端VPC。 约束与限制 仅以下指定版本的CCE Turbo集群支持配置Pod延时启动参数:: v1.19集群:v1
27 v1.28 v1.29 v1.30 修复部分问题 2.1.22 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 修复了一些页面显示问题 支持查询超节点信息 支持上报显卡拓扑信息 修复了日志打印问题 2.1.14 v1.21 v1.23 v1.25