检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
残留packageversion检查异常处理 检查项内容 检查当前集群中是否存在残留的packageversion。 解决方案 检查提示您的集群中存在残留的CRD资源10.12.1.109,该问题一般由于CCE早期版本节点删除后,对应的CRD资源未被清除导致。 您可以尝试手动执行以下步骤:
不同区域支持的节点规格(flavor)不同,且节点规格存在新增、售罄下线等情况,建议您在使用前登录CCE控制台,在创建节点界面查看您需要的节点规格是否支持。 CCE Standard集群 CCE集群只支持2U4G以上的规格,建议您通过控制台查询节点规格,具体节点规格名称请参见规格清单。
路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方式请参见如何获取接口URI中参数 cluster_id 是 String 集群 ID,获取方式请参见如何获取接口URI中参数 请求参数 表2 请求Header参数 参数 是否必选 参数类型
nodePort: 0 port: 80 protocol: TCP type: ClusterIP 注解 是否必选 描述 volcano.sh/enable-quota-burst 是 为工作负载开启CPU Burst。 volcano.sh/quota-burst-time
检查并确认被访问服务的安全组配置是否允许来自容器网段的访问。 与CCE进行通信的云服务有:ECS、ELB、RDS、DCS、Kafka、RabbitMQ、ModelArts、DDS等。进行通信时,除了关注相关的网络配置外,还需要关注所访问的云服务是否允许外部访问,如DCS的Redi
$containerID | grep oom 根据日志判断是否触发了系统OOM。 排查思路 根据具体事件信息确定具体问题原因,如表1所示。 表1 容器启动失败 日志或事件信息 问题原因与解决方案 日志中存在exit(0) 容器中无进程。 请调试容器是否能正常运行。 排查项一:(退出码:0)容器中无持续运行的进程
登录CCE控制台。 单击集群名称进入集群,在左侧选择“配置中心”,在右侧选择“调度配置”页签。 在“AI任务性能增强调度”配置中,选择是否开启“公平调度 (drf) ”。 启用该能力后,可增强集群业务的吞吐量,提高业务运行性能。 修改完成后,单击“确认配置”。 父主题: AI任务性能增强调度
kubernetes.io/baremetal 旧:failure-domain.beta.kubernetes.io/is-baremetal 表示是否为裸金属节点。 例如:false,表示非裸金属节点 node.kubernetes.io/container-engine 表示容器引擎。
Master节点子网配额检查异常处理 检查项内容 检查本次升级集群子网剩余可用IP数量是否支持滚动升级。 解决方案 该问题一般因为您选择的集群子网的IP数量不够,无法支持滚动升级; 请您迁移对应子网中的节点之后重试检查,若您无法确认迁移影响,请您提交工单联系运维人员支撑。 父主题:
节点journald检查异常处理 检查项内容 检查节点上的journald状态是否正常。 解决方案 请登录该节点,执行systemctl is-active systemd-journald命令查询journald服务运行状态。若回显状态异常,请执行systemctl restart
云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.19版本所做的变更说明。 资源变更与弃用 社区1.19 ReleaseNotes 增加对vSphere in-tree卷迁移至vSphere CSI驱动的支持。in-tree vSphere Volume插件将不再使用,并在将来的版本中删除。
云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.19版本所做的变更说明。 资源变更与弃用 社区1.19 ReleaseNotes 增加对vSphere in-tree卷迁移至vSphere CSI驱动的支持。in-tree vSphere Volume插件将不再使用,并在将来的版本中删除。
n defaultAllowPrivilegeEscalation 约束Pod中是否允许配置allowPrivilegeEscalation=true,该配置会控制Setuid的使用,同时控制程序是否可以使用额外的特权系统调用。 defaultAddCapabilities re
节点OS为Ubuntu 18.04时出现日志无法采集 排查方法:重启当前节点的fluent-bit pod,查看日志是否正常采集。如依然无法采集,请确认需要采集的文件是否为打包镜像时已经存在于镜像中的日志文件。对于容器日志采集的场景来说,镜像打包时已存在的文件的日志非运行日志,属于无
单击“安装”。 建议您关注以下配置,其他配置可按需进行设置。详情请参见云原生监控插件。 本地数据存储:使用本地存储监控数据,监控数据可选择是否上报至AOM或三方监控平台。 自定义指标采集:该配置在本实践中必须选择开启,否则将无法采集自定义指标。 插件配置完成后,单击“安装”。 步骤二:获取Prometheus监控数据
删除PV 功能介绍 该API用于删除指定Namespace下的PV(PersistentVolume)对象,并可以选择是否保留后端云存储。该API已废弃,请使用Kubernetes PV相关接口。 存储管理的URL格式为:https://{clusterid}.Endpoint/
Master节点SSH连通性检查异常处理 检查项内容 该检查通过尝试建立SSH连接,检查CCE是否能通过SSH方式连接至您的Master节点。 解决方案 SSH连通性检查可能有较低概率因为网络波动检查失败,请您优先重试升级前检查; 若重试检查仍无法通过检查,请您提交工单,联系技术支持人员排查。
节点状态检查 检查项内容 集群升级后,需要检查节点状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群内节点的状态,您可以根据诊断结果前往节点列表页面进行确认。 解决方案 集群节点异常时,建议您通过重置节点来解决,若无法解决,请联系技术支持人员。 父主题: 升级后验证
GPU/NPU Pod重建风险检查异常处理 检查项内容 检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。 解决方案 请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重建带来的影响; 如需帮助,请您提交工单联系运维人员获取支持。
排查项一:kubectl创建工作负载时未指定imagePullSecret 当工作负载状态异常并显示“实例拉取镜像失败”的K8s事件时,请排查yaml文件中是否存在imagePullSecrets字段。 排查事项: 当Pull SWR容器镜像仓库的镜像时,name参数值需固定为default-secret。