检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
根据事件,参考Pod常见异常问题查找异常的解决方案。 如果工作负载状态为“处理中”,一般为过程中的状态,请耐心等待。 如果工作负载状态为“运行中”,一般无需处理。如果出现状态正常但无法访问的情况,则需要进一步排查集群内访问是否正常。
Kubernetes默认支持两种策略: none:默认策略,显式地启用现有的默认CPU亲和方案,不提供操作系统调度器默认行为之外的亲和性策略。
解决方案: 建议迁移业务,减少节点中的工作负载数量,并对工作负载设置资源上限,降低节点CPU或内存等资源负载。 将集群中对应的cce节点进行数据清理。 限制每个容器的CPU和内存限制配额值。 对集群进行节点扩容。
解决方案 为了避免DNS延迟的影响,可以在集群中部署NodeLocal DNSCache来提升服务发现的稳定性和性能。
建议使用 Ceph CSI 第三方存储驱动程序作为替代方案。 在Kubernetes 1.28 版本,Ceph RBD 树内插件已在 v1.28 中弃用,并计划在 v1.31 中删除(社区没有计划进行 CSI 迁移)。
建议使用 Ceph CSI 第三方存储驱动程序作为替代方案。 在Kubernetes 1.28 版本,Ceph RBD 树内插件已在 v1.28 中弃用,并计划在 v1.31 中删除(社区没有计划进行 CSI 迁移)。
解决方案 CCE服务支持pass-through能力,在负载均衡类型的Service中配置kubernetes.io/elb.pass-through的annotation,可以实现集群内部访问Service的ELB地址时绕出集群,并通过ELB的转发最终转发到后端的Pod。
) --> containerd Docker(Kubernetes 1.23及以下版本): kubelet --> dockershim (在kubelet 进程中) --> docker --> containerd Docker(Kubernetes 1.24及以上版本社区方案
适用场景 性能要求高:由于云原生网络2.0直接使用VPC网络构建容器网络,容器通信不需要进行隧道封装和NAT转换,所以适用于对带宽、时延要求极高的业务场景,比如:线上直播、电商抢购等。 大规模组网:云原生网络2.0当前最大可支持2000个ECS节点,10万个Pod。
解决方案 CCE服务支持pass-through能力,在负载均衡类型的Service中配置kubernetes.io/elb.pass-through的annotation,可以实现集群内部访问Service的ELB地址时绕出集群,并通过ELB的转发最终转发到后端的Pod。
解决方案 本文介绍一种基于ELB监控指标的弹性伸缩方法,相比CPU/内存使用率进行弹性伸缩,基于ELB的QPS数据弹性伸缩更有针对性,更加及时。
该修复方案可能影响通过ECS Console修改密码,修复前须进行验证。 获取集群的网络模式和容器网段信息。 在CCE的“集群管理”界面查看集群的网络模式和容器网段。 禁止容器获取宿主机元数据。
方案架构 将多个集群对接到同一个Prometheus监控系统,如下所示,节约维护成本和资源成本,且方便汇聚监控信息。 前提条件 目标集群已创建。 Prometheus与目标集群之间网络保持连通。
解决方案 解决在不同架构的节点使用镜像创建工作负载通常有两种方法: 创建工作负载的时候通过亲和性设置,使用ARM架构镜像时让Pod调度到ARM架构的节点上,使用x86架构镜像时让Pod调度到x86架构的节点上。
创建集群 获取指定的集群 创建节点 获取指定的节点 获取集群下所有节点 获取集群下所有节点池 创建PersistentVolumeClaim 创建PersistentVolume 创建AddonInstance 删除AddonInstance 常见问题 了解更多常见问题、案例和解决方案
示意图如下: 场景二:切分一定比例的流量到新版本 假设线上已运行了一套对外提供七层服务的Service B,此时修复了一些问题,需要发布上线一个新的版本Service B',但又不想直接替换原有的Service B,而是期望将20%的流量切换到新版本Service B'中。
Prometheus是一套开源的系统监控报警框架,能够采集丰富的Metrics(度量数据),目前已经基本是Kubernetes的标准监控方案。 Metrics Server是Kubernetes集群范围资源使用数据的聚合器。
Volcano目前已经应用于华为云CCE、CCI产品以及容器批量计算解决方案。未来Volcano会持续迭代演进,优化算法、增强调度能力如智能调度的支持,在推理场景增加GPU Share等特性的支持,进一步提升kubeflow批量训练和推理的效率。
无法纳管原因 解决方案 操作指导 规格不一致 将云服务器规格修改成节点池中包含的规格。 修改云服务器的规格 虚拟私有云和子网不一致 将云服务器所在的虚拟私有云和子网修改成节点池相同的虚拟私有云和子网。
解决方案 本文对节点创建中storage字段进行详细的解释说明,方便用户通过创建节点API实现较为复杂的磁盘选择与功能划分。