检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点类 集群状态为“可用”,节点状态为“不可用”,如何处理? 无法远程登录节点,怎么办? 如何解决yum update升级操作系统导致容器网络不可用问题? 如何重置CCE集群中节点的密码? 如何解决新增节点时提示弹性IP不足的问题? 如何收集节点的日志? 更多 集群网络类 云容器引擎CCE支持哪些网络能力?
sion。 解决方案 检查提示您的集群中存在残留的CRD资源10.12.1.109,该问题一般由于CCE早期版本节点删除后,对应的CRD资源未被清除导致。 您可以尝试手动执行以下步骤: 备份残留的CRD资源。10.12.1.109 为示例资源,请根据报错中提示的资源进行替换。 kubectl
业务部署或运行过程中,用户可能会触发不同层面的高危操作,导致不同程度上的业务故障。为了能够更好地帮助用户预估及避免操作风险,本文将从集群/节点、网络与负载均衡、日志、云硬盘多个维度出发,为用户展示哪些高危操作会导致怎样的后果,以及为用户提供相应的误操作解决方案。 集群/节点 表1
生告警中,除了传统的CPU、内存等资源使用量的告警以外,还有容器重启等事件告警、应用访问失败等自定义的监控指标告警。 CCE的云原生告警能力是由AOM服务提供的,支持指标和事件的告警。同时,CCE集群详情中增加了告警中心能力,能支持快速配置资源等常用告警和告警查看。 图1 告警中心架构
效。 采集端点访问403的原因是什么?该如何处理? 问题根因 您的采集端点对应的采集任务ServiceMonitor/PodMonitor配置了认证,出于安全考虑,页面访问默认不支持访问需认证的端点。 解决方案:您可以通过配置,允许访问带认证的端点。 配置允许访问带认证的端点,会
过容器IP直接访问另外一个集群的Pod。同理,如果两端集群的节点需要相互访问,节点安全组需要放通对端集群的VPC网段。 两端的VPC路由表中均需要添加访问对端网段的路由。例如,VPC 1的路由表需添加访问VPC 2网段的路由,同时,VPC 2的路由表也需要添加访问VPC 1的路由。
声明Pod的资源(Request和Limit) 容器的Request及Limit需要根据实际的业务场景进行灵活的配置,Request的值会用于提供给调度器,调度器会检测每个节点可用于分配的资源(节点可分配资源=节点资源总量-节点已分配资源),同时记录每个节点已经被分配的资源(节点上所
使用Volcano调度工作负载 资源利用率优化调度 针对计算资源进行优化的调度策略,可以有效减少各节点资源碎片,最大化地提高计算资源的利用率。 资源利用率优化调度 业务优先级保障调度 根据业务的重要性和优先级,设置自定义的策略对业务占用的资源进行调度,确保关键业务的资源优先级得到保障。 业务优先级保障调度
状态。当对应的命名空间下还存在运行的资源,但该命名空间被删除时才会出现Terminating状态,这种情况下只要等待Kubernetes本身将命名空间下的资源回收后,该命名空间将会被系统自动删除。 但是在某些情况下,即使命名空间下没有运行的资源,但依然无法删除Terminatin
行部署。目前许多企业选择自建Kubernetes集群,但是自建集群往往有着沉重的运维负担,需要运维人员自己配置管理系统和监控解决方案。企业自运维大批镜像资源,意味着要付出高昂的运维、人力、管理成本,且效率不高。 容器镜像服务支持Linux、ARM等多架构容器镜像托管。企业可以将镜
kube-prometheus-stack插件实例调度失败如何解决? 问题现象 安装kube-prometheus-stack插件时, 插件状态一直处于“部分就绪”,查看插件的prometheus实例事件中提示“0/x nodes are available: x node(s)
kube-apiserver 的访问地址。 约束限制: 不涉及 isLocked Boolean 参数解释: CBC资源锁定 约束限制: 不涉及 取值范围: true: 是CBC锁定资源 false: 非CBC锁定资源 lockScene String 参数解释: CBC资源锁定场景 约束限制:
电商客户遇到促销、限时抢购等活动期间,访问量激增,需及时、自动扩展云计算资源。 视频直播客户业务负载变化难以预测,需要根据CPU/内存使用率进行实时扩缩容。 游戏客户每天中午12点及晚上18:00-23:00间需求增长,需要定时扩容。 价值 云容器引擎可根据用户的业务需求预设策略自动调整计算资源,使云服务器
的原因。 如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 排查项一:节点是否存在资源压力 排查项二:是否在实例上设置了tolerations 排查项三:是否满足停止驱逐实例的条件 排查项四:容器与节点上的“资源分配量”是否一致 排查项五:工作负载实例不断失败并重新部署
Integer 集群删除时已经存在的集群资源记录总数 current_total Integer 基于当前集群资源记录信息,生成实际最新资源记录总数 updated Integer 集群删除时更新的资源记录总数 added Integer 集群删除时更新的资源记录总数 deleted Integer
当集群状态为“不可用”时,如何排查解决? CCE集群如何重置或重装? 如何确认已创建的集群是否为多控制节点模式? 是否可以直接连接CCE集群的控制节点? CCE集群删除之后相关数据能否再次找回? 为什么CCE集群界面的节点磁盘监控看起来不准确? 如何修改CCE集群名称? 控制台访问异常问题排查 父主题:
Delete:存储卷声明PVC删除时,会将关联的底层存储资源删除,并同步移除PV资源,请谨慎使用。 Retain:存储卷声明PVC删除时,PV和关联的底层存储资源均会保留,其中PV状态被设置为已释放,继续手动删除PV不会删除底层存储资源,若希望该PV还能被PVC绑定,需去除PV上与原PVC绑定的相关信息。
出现该问题的原因是kubectl top node是调用kubelet的metrics API来获取数据的,因此看到的是节点上已使用的资源总和除以可分配的所有资源。 社区issue链接:https://github.com/kubernetes/kubernetes/issues/86499。 场景示例
ARP缓存超限,容器网络的访问出现异常,例如coredns域名解析概率失败。 问题根因 出现该问题的原因是节点上容器缓存的ARP表项超过限制。 问题定位 在节点操作系统内核为4.3以上时,dmsg日志中会有显性的打印neighbor table overflow字样。详情请参见社区链接:link。
命令查找pod的IP,然后登录到集群内的节点或容器中,使用curl命令等方法手动调用接口,查看结果是否符合预期。 如果容器IP+端口不能访问,建议登录到业务容器内使用“127.0.0.1+端口”进行排查。 常见问题: 容器端口配置错误(容器内未监听访问端口)。 URL不存在(容器内无相关路径)。