检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点Kubelet检查异常处理 检查项内容 检查节点kubelet服务是否运行正常。 解决方案 问题场景一:kubelet状态异常 kubelet异常时,节点显示不可用,请参考集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 问题场景二:cce-pause版本异常 检测
在业务验证过程中,出于一些原因,该用户对集群的资源进行了以下变更: 图1 资源变更样例 该用户于2023/03/18 17:30:00对集群进行休眠,并同时对节点进行关机。 该用户于2023/03/19 8:30:00重新唤醒集群,并同时对节点进行开机。 该用户在集群中部署业务,并在2023/03/19
本方案使用容器镜像服务(SWR)来保存通过Jenkins构建的容器镜像。 登录容器镜像服务SWR。 创建一个组织,用于管理镜像资源。具体操作步骤请参见组织管理。 获取长期有效的docker login登录指令。具体步骤请参见获取长期有效docker login指令。 该登录命令将在流水线上传镜像时使用,详情请参见持续集成及持续部署。
近一次发布的chart manifest和本次发布的chart manifest的差异,来决定哪些更改会应用到Kubernetes资源中。如果更改是集群外带的(比如通过kubectl edit),则修改不会被Helm识别和考虑。结果就是资源不会回滚到之前的状态。 Helm v3
GPU视图 GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量
系统委托,其中包含CCE组件需要的云服务资源操作权限,但不包含支付权限,详情请参见系统委托说明。在创建包周期的云硬盘存储卷时,要求包含支付权限,因此需要为cce_cluster_agency委托中添加bss:order:pay权限。 解决方案 您可以创建一个自定义策略,为该策略添
集群下控制节点和用户节点使用的虚拟私有云。 参数名 取值范围 默认值 是否允许修改 作用范围 HostNetwork.vpc 用户租户下存在的VPC ID 无 支持初始化时配置,不支持后续修改 CCE Standard/CCE Turbo 获取方法如下: 方法1:登录虚拟私有云服务
VC,PVC资源删除成功后,PV状态更新为Released,csi-provisioner监听到PV更新事件,但由于PV上有deletionTimestamp,csi-provisioner认为不需要删除底层卷,于是跳过删底层卷的流程,直接开始删除PV,这样PVC和PV被成功删除
CCE创建的ECS实例(节点)目前支持“按需计费”和“包年/包月”,其他资源(例如负载均衡)为按需计费。如果资源所属的服务支持将按需计费实例转换成包年/包月实例,您可以通过对应的控制台进行操作。 集群中纳管计费模式为“包年包月”的节点时,无法在CCE控制台为其续费,用户需前往ECS控制台单独续费。
定数成功型任务保证有N个任务全部成功。 工作队列型任务根据应用确认的全局成功而标志成功。 前提条件 已创建资源,具体操作请参见创建节点。若已有集群和节点资源,无需重复操作。 通过控制台创建 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”,在右上角单击“创建工作负载”。 配置工作负载的信息。
CCE集群中域名解析失败。 排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。 如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 图1 域名解析失败排查思路 当遇到域名解析失败的问题时,首先需要判断是集群内域名还是集群外域名解析失败。
配置控制面审计日志 插件中除log-operator外组件均未就绪 问题现象:插件中除log-operator外组件均未就绪,且出现异常事件“实例挂卷失败”。 解决方案:请查看log-operator日志,安装插件时,其余组件所需的配置文件需要log-operator生成,log-operat
然后登录到集群内的节点或容器中,使用curl命令等方法手动调用接口,查看结果是否符合预期。 如果容器IP+端口不能访问,建议登录到业务容器内使用“127.0.0.1+端口”进行排查。 登录容器的操作步骤请参见登录容器的方法。 访问结果是否符合预期 如果集群内可以正常访问工作负载
于检查用户业务是否就绪,如果未就绪,则不转发流量到当前实例。一些程序的启动时间可能很长,比如要加载磁盘数据或者要依赖外部的某个模块启动完成才能提供服务。这时候程序进程已启动,但是并不能对外提供服务。这种场景下该检查方式就非常有用。如果容器的就绪检查失败,集群会屏蔽请求访问该容器;若检查成功,则会开放对该容器的访问。
性限制。 表1 受限的everest插件版本 插件名称 涉及版本 everest v1.0.2-v1.0.7 v1.1.1-v1.1.5 解决方案 检测到当前everest版本存在兼容性限制,无法随集群升级,请联系技术支持人员。 父主题: 升级前检查异常问题排查
工作负载异常:实例无法写入数据 Pod事件 Pod所在的节点文件系统损坏,新建的Pod无法成功在/var/lib/kubelet/device-plugins/.xxxxx写入数据,Pod通常会出现以下类似事件: Message: Pod Update Plugin resources
修改节点最大实例数。详情请参见节点池配置管理。 默认场景下,节点最大实例数最多可调整至256。如果您期望提升节点上的部署密度,您可以提交工单申请调整节点最大实例数,最大支持修改至512个实例。 图2 创建节点时的最大实例数配置 根据节点规格不同,节点默认最大实例数如表1所示。 表1
Controller优化设置 使用合适的副本数和资源限制 默认情况下,通过插件中心安装的Nginx Ingress Controller的实例数为2,您可以根据业务的实际需要进行调整。 在部署Nginx Ingress Controller时,多实例会默认分配到不同可用区或者是同一可用区的不同节点。
当前仅北京一、北京四、上海一、上海二、广州、贵阳一和乌兰察布一支持使用CloudShell登录容器。 登录CCE控制台,单击集群名称进入集群。 在左侧选择“工作负载”,单击目标工作负载名称,查看工作负载的实例列表。 单击目标实例操作列中的“更多 > 远程登录”。 图1 登录容器 在弹出窗口中选择要登录的容器以及命令,然后单击“确定”。
节点命令行检查异常处理 检查项内容 检查节点中是否存在升级所必须的命令。 解决方案 该问题一般由于节点上缺少集群升级流程中使用到的关键命令,可能会导致集群升级失败。 报错信息如下: __error_code#ErrorCommandNotExist#chage command is