检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
import com.huaweicloud.sdk.cce.v3.region.CceRegion; import com.huaweicloud.sdk.cce.v3.*; import com.huaweicloud.sdk.cce.v3.model.*; public class
内部错误异常处理 检查项内容 该检查非常规检查项,表示升级前检查流程中出现了内部错误。 解决方案 该问题出现后,请您优先重试升级前检查; 若重试升级前检查仍失败,请您提交工单,联系技术支持人员。 父主题: 升级前检查异常问题排查
Kubernetes 1.9的集群版本升级公告 发布时间:2020/12/07 根据CCE发布的Kubernetes版本策略中的版本策略,CCE将在近期停止Kubernetes 1.9的集群版本的维护,为了能够更好地方便您使用云容器引擎服务,确保您使用稳定又可靠的Kubernetes版本,如果您仍在使用1
指标名称 类型 说明 cce_gpu_gpu_utilization Gauge GPU卡算力使用率 cce_gpu_memory_utilization Gauge GPU卡显存使用率 cce_gpu_memory_used Gauge GPU显存使用量 cce_gpu_memory_total
发布时间:2022/11/24 Kubernetes 1.21及以上版本的集群中,Pod将不再自动挂载永久Token,默认使用TokenRequest API获得Token,并使用投射卷(Projected Volume)挂载到Pod中。 使用这种方法获得的Token具有固定的生命周期(默认有效期
container_memory_working_set_bytes(即Working Set Size,WSS)的计算方式如下: 在Pod中执行cat /sys/fs/cgroup/memory/memory.stat,得到total_cache(缓存内存量)、total_r
业务检查 检查项内容 集群升级完毕,由用户验证当前集群正在运行的业务是否正常。 检查步骤 业务不同,验证的方式也有所不同,建议您在升级前确认适合您业务的验证方式,并在升级前后均执行一遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等
Service)。该漏洞为中危漏洞,CVSS评分为5.5。 具备以下特权的Pod拥有节点上/etc/hosts文件的写入权限: Pod中的容器具备CAP_DAC_OVERRIDE系统权限(默认具备)。 Pod以root(UID为0)用户启动或者Pod Security Context中的allowPr
CoreDNS视图 提供了负载域名解析的CoreDNS监控视图,包含请求、响应情况,以及缓存状况。 指标说明 CoreDNS视图暴露的指标如下: 图1 CoreDNS视图指标 表1 CoreDNS指标说明 指标名称 单位 说明 请求速率 个/秒 CoreDNS每秒请求个数 请求速率(记录类型)
问题现象 工作负载的状态为“已停止”。 问题原因: 工作负载的yaml的中metadata.enable字段为false,导致工作负载被停止,Pod被删除导致工作负载处于已停止状态,如下图所示: 解决方案 将enable字段删除或者将false修改为true。 父主题: 工作负载异常问题排查
Guaranteed BestEffort类型的Pod:系统用完了全部内存时,该类型Pod会最先被终止。 Burstable类型的Pod:系统用完了全部内存,且没有BestEffort容器可以终止时,该类型Pod会被终止。 Guaranteed类型的Pod:系统用完了全部内存、且没有Burs
Memory)事件,导致容器异常退出。关于OOM事件,可以参考为容器和Pod分配内存资源。 解决方案 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 通过Pod内存监控查看内存增长曲线,确定异常出现时间。
APIServer视图 提供了Kubernetes核心组件APIServer主要监控视图,帮助您更好的监控APIServer的运行状态。主要包括APIServer组件的请求、资源、工作队列等相关指标。 指标说明 APIServer视图暴露的指标包括请求指标、工作队列指标和资源指标,具体说明如下:
集群状态检查 检查项内容 集群升级后,需要检查集群状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群状态是否正常,您可以根据诊断结果前往集群列表页面进行确认。 解决方案 当集群状态异常时,请联系技术支持人员。 父主题: 升级后验证
命名空间(如:ns)下创建时不能创建成功。 原因分析 创建弹性负载均衡ELB后,使用default命名空间创建80端口的http监听,在CCE中只允许在本命名空间下创建同一端口的其它ingress(实际转发策略可根据域名、service来区分);所以出现客户侧在其它命名空间无法创
删除挂载了云存储的Pod时提示target is busy 现象描述 在删除Pod时一直处于Terminating状态,通过节点上的/var/log/cce/kubernetes/kubelet.log路径查询kubelet日志,出现以下错误提示: ...unmount failed:
书文件,证书文件过多可能导致节点升级过慢,节点上Pod被驱逐等。 解决方案 方案一:优先建议您重置节点,详情请参考重置节点。 方案二:修复节点上证书轮转异常问题。 登录节点,并进入节点证书目录。 cd /opt/cloud/cce/kubernetes/kubelet/pki/
K8s节点污点检查异常处理 检查项内容 检查节点上是否存在集群升级需要使用到的污点。 表1 检查污点列表 污点名称 污点影响 node.kubernetes.io/upgrade NoSchedule 解决方案 问题场景一:该节点为集群升级过程中跳过的节点。 配置Kubectl命
用户访问集群API Server的方式有哪些? 当前CCE提供两种访问集群API Server的方式: 集群API方式:(推荐)集群API需要使用证书认证访问。直接连接集群API Server,适合大规模调用。 API网关方式:API网关采用token方式认证,需要使用账号信息获
执行如下命令,删除故障容器的Pod。 kubectl delete pod {podName} -n {podNamespace} 其中: {podName}:替换为实际故障容器所属pod名称。 {podNamespace}:替换为实际Pod所在的namespace名称。 删除故障容器的Pod之后系统