检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在使用GPU/NPU节点时,可以为其添加污点,并通过工作负载容忍度设置,避免非GPU/NPU工作负载调度到GPU/NPU节点上。 GPU/NPU工作负载:添加指定污点的容忍度,可以调度至GPU/NPU节点。 普通工作负载:未添加指定污点的容忍度,无法调度至GPU/NPU节点。 操作步骤如下:
点上可能存在的异常并及时处理。您也可以对npd插件的故障检查项进行自定义配置,包括检查的目标节点、检查周期、触发阈值等,详情请参见节点故障检测策略。 配置DNS缓存 当集群中的DNS请求量增加时,CoreDNS将会承受更大的压力,可能会导致如下影响: 延迟增加:CoreDNS需要
插件模板名称,如coredns addonTemplateType String 插件模板类型 addonTemplateLogo String 插件模板logo图片的地址 addonTemplateLabels Array of strings 插件模板所属类型 description String 插件模板描述
但key为空时, 表示这个容忍度与任意的key、value和effect都匹配,即这个容忍度能容忍任何污点。 如果effect为空但键名key已填写,则表示与所有键名key的效果相匹配。 关于Kubernetes容忍度的详细说明,请参见污点和容忍度。 因此,需要修改工作负载的ya
插件模板名称,如coredns addonTemplateType String 插件模板类型 addonTemplateLogo String 插件模板logo图片的地址 addonTemplateLabels Array of strings 插件模板所属类型 description String 插件模板描述
行较早,则等指标规则执行完毕后周期规则仍会执行。 配置了“CPU分配率”和“内存分配率”的规则后,策略的检测周期会因autoscaler每次循环的处理逻辑而变动。只要一次检测出满足条件就会触发扩容(还需要满足冷却时间、节点池状态等约束条件)。 当节点数已到达集群规模上限、所属节点
得该权限。 CCE CCE Administrator 监控中心、告警中心在运行过程中需要访问CCE获取集群、节点、工作负载等信息,以此来检测对应资源的健康状态,因此需要获得该权限。 CCE SWR Administrator 监控中心、告警中心在运行过程中需要访问SWR获取镜像信息,因此需要获得该权限。
得该权限。 CCE CCE Administrator 监控中心、告警中心在运行过程中需要访问CCE获取集群、节点、工作负载等信息,以此来检测对应资源的健康状态,因此需要获得该权限。 CCE SWR Administrator 监控中心、告警中心在运行过程中需要访问SWR获取镜像信息,因此需要获得该权限。
配置安全加固 支持挂载三方OBS存储 切换更优性能的EVS查询接口 默认快照以clone模式创建磁盘 优化和增强Attach和Detach磁盘状态检测和日志输出 增加认证过期判断可靠性 1.1.8 v1.15 v1.17 支持CCE v1.17,v1.13升级到v1.15场景支持接管Flexvolume
为什么访问部署的应用时浏览器返回404错误码? CCE服务本身在浏览器中访问应用时不会返回任何的错误码,请优先排查自身业务。 404 Not Found 如果404的返回如下图所示,说明这个返回码是ELB返回的,说明ELB找不到相关的转发策略。请排查相关的转发规则等。 图1 404:ALB
VC的资源时,在集群迁移后,PVC状态会处于pending状态。 请确保CCE侧集群中没有与被迁移集群侧相同的资源,因为Velero工具在检测到相同资源时,默认不进行恢复。 为确保集群迁移后容器镜像资源可以正常拉取,请将镜像资源迁移至容器镜像服务(SWR)。 CCE不支持Read
配置建议: 无特殊需求建议保持默认配置 并发数量设置过小可能导致管理器处理响应慢,设置过大会对集群管控面造成压力,产生过载风险 Pod水平伸缩容忍度 此值为目标值与实际值的比值与 1.0 的差值。只有超过此标志所设的阈值时, HPA 才会考虑执行缩放操作 参数名 取值范围 默认值 是否允许修改
Grafana 插件简介 Grafana是一款开源的数据可视化和监控平台,可以为您提供丰富的图表和面板,用于实时监控、分析和可视化各种指标和数据源。 安装插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧找到Grafana,单击“安装”。 设置插件
CCE AI套件(Ascend NPU) 插件介绍 CCE AI套件(Ascend NPU)是支持容器里使用NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
方位的监控。同时在易用性上,提供良好的可视化视图,支持多级下钻与关联分析。 CCE支持上报告警和事件,通过告警模板,用户可以一键开启,实时检测集群和容器故障。 Standard/Turbo集群可观测性 Autopilot集群可观测性 模板市场 CCE Standard集群、CCE
此,无法定义通用的告警阈值,可以观察业务稳态运行时的指标数据,根据正常波动范围设置合理的告警阈值,或使用单位时间内指标数据的变化量作为告警检测对象。 配置日志采集 Kubernetes日志可以协助您排查和诊断问题。其中,kube-apiserver组件的日志记录了客户端请求的详细
Node节点vdb盘受损,通过重置节点仍无法恢复节点? 问题现象 客户node节点vdb盘受损,通过重置节点,无法恢复节点。 问题过程: 在一个正常的node节点上,删除lv,删除vg,节点不可用。 重置异常节点,重置过程中,报语法错误,而且节点不可用。 如下图: 问题定位 no
com/apache/spark.git 修改/dev/make-distribution.sh文件,指定Spark版本,目的是为了让编译的时候跳过检测。 使用搜索找到 VERSION 所在行,查看版本号所在行数。 cat ./spark/dev/make-distribution.sh |grep
工作负载异常:已停止 问题现象 工作负载的状态为“已停止”。 问题原因: 工作负载的yaml的中metadata.enable字段为false,导致工作负载被停止,Pod被删除导致工作负载处于已停止状态,如下图所示: 解决方案 将enable字段删除或者将false修改为true。
GPU/NPU相关指标优化。 修复部分安全问题。 v1.23.5-r0 v1.23.11 容器存储支持对接SFS 3.0文件存储服务。 支持GPU节点的设备故障检测和隔离能力。 支持配置集群维度的自定义安全组。 CCE Turbo集群支持节点级别的网卡预热参数配置。 支持集群控制面组件的日志信息开放。