检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
健康检查探针偶现检测失败,是由于容器内的业务故障所导致,您需要优先定位自身业务问题。 常见情况有: 业务处理时间长,导致返回超时。 tomcat建链和等待耗费时间太长(连接数、线程数等),导致返回超时。 容器所在节点,磁盘IO等性能达到瓶颈,导致业务处理超时。 父主题: 容器设置
署、监控、运维和治理等应用生命周期管理工作。ServiceStage面向企业提供微服务、移动和Web类应用开发的全栈解决方案,帮助您的各类应用轻松上云,聚焦业务创新,帮助企业数字化快速转型。 父主题: 相关服务
存储多可用区部署的推荐配置 应用场景 在多可用区构成的集群下,业务可以指定可用区部署。 多可用区部署可以减少可用区资源不足带来的故障问题。 通过存储多可用区部署优化,可以帮您最大限度地减少应用发布中断,确保关键业务系统和应用在各种故障情况下能持续运行。 前提条件 您已创建一个安装
展或缩减集群资源,以应对业务需求的变化,从而实现高效、灵活和经济的资源管理。详情请参见购买集群。 集群升级:您可以升级Kubernetes版本以使用最新的功能,同时提升系统的稳定性和性能。详情请参见升级集群。 节点/节点池管理 异构资源管理:全面适配华为云各类计算实例,支持虚拟机
节点内存检查异常处理 检查项内容 检查节点内存使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
将容器应用从SFS 1.0迁移到通用文件系统(SFS 3.0)或SFS Turbo 弹性文件服务(SFS)提供了SFS容量型(SFS 1.0)、通用文件系统(SFS 3.0)和SFS Turbo三种类型的文件系统,关于各类型文件系统的特点和优势请参见文件系统类型。 历史版本中,CCE支持在工作负载中挂载SFS
处理”? 问题描述: 在什么场景下设置工作负载生命周期中的“停止前处理”? 问题解答: 服务的业务处理时间较长,在升级时,需要先等Pod中的业务处理完,才能kill该Pod,以保证业务不中断的场景。 父主题: 容器设置
持续集成及持续部署 在本方案中,需要在通过 code push 事件中触发 Jenkins 进行编译打包,通过邮件审批之后,将应用部署到 Kubernetes 集群中。 安装Jenkins插件 除了前文安装 Jenkins 时默认安装的插件外,还需要安装 GitLab Plugin,Kubernetes
它资源约束的时候触及进程ID数量上限,进而导致节点不稳定。 您可以根据实际业务需求调整进程ID数量上限。 默认kernel.pid_max说明 CCE在2022年1月底将1.17及以上集群的节点公共操作系统EulerOS 2.5、CentOS 7.6、Ubuntu 18.04镜像kernel
检查CCE使用的目录/var/paas内文件的属主和属组是否都为paas。 解决方案 问题场景一: 错误信息为“xx file permission has been changed!”。 解决方案: CCE使用/var/paas目录进行基本的节点管理活动并存储属主和属组均为paas的文件数据。
通过将弹性网卡从云服务器实例解绑后再绑定到另外一台服务器实例,保留已绑定私网IP、弹性公网IP和安全组策略,无需重新配置关联关系,将故障实例上的业务流量快速迁移到备用实例,实现服务快速恢复。 业务分离管理 可以为服务器实例配置多个分属于同一VPC内不同子网的弹性网卡,特定网卡分别承载云服务器实例的内网、外网、
Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,实时监控您的应用及相关云资源,分析应用健康状态,提供灵活丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况。 LTS:云日志服务(Log Tank Ser
PI进行操作。勿直接后台直接修改插件相关资源,以免插件异常或引入其他非预期问题。 插件Pod优先级较高,在集群资源不足时会抢占业务Pod资源,可能导致业务Pod被驱逐重建。 容器调度与弹性插件 插件名称 插件简介 Volcano调度器 Volcano调度器提供了高性能任务调度引擎
CCE产品架构 计算:全面适配华为云各类计算实例,支持虚拟机和裸机混合部署、高性价比鲲鹏实例、GPU和华为云独有的昇腾算力;支持GPU虚拟化、共享调度、资源感知的调度优化。 网络:支持对接高性能、安全可靠、多协议的独享型ELB作为业务流量入口。 存储:对接云存储,支持EVS、SFS和OBS,提供磁盘加密、快照和备份能力。
在集群中移除节点会将该节点移出集群,然后重装节点的操作系统,并清理节点上的CCE组件。 移除不会删除节点对应的服务器。移除前请确认您的正常业务运行不受影响,请谨慎操作。 节点移出集群后会继续开机运行,并继续产生费用。 约束限制 若节点在CCE集群移除后重装操作系统失败,请手动完成失败节点的操作系统重装,并在重装后
节点不建议配置限制业务容器访问管理面。 为此类节点配置污点及亲和性调度 如果确认节点上的业务容器都不需要访问集群kube-apiserver,建议为此类节点配置标签及污点,并为容器配置污点容忍和节点亲和调度,避免其他容器调度到该节点,以免出现业务异常。 限制业务容器访问管理面的操作步骤如下:
成功结束。 Job:是Kubernetes用来控制批处理型任务的资源对象。批处理业务与长期伺服业务(Deployment、StatefulSet)的主要区别是批处理业务的运行有头有尾,而长期伺服业务在用户不停止的情况下永远运行。Job管理的Pod根据用户的设置把任务成功完成就自动退出(Pod自动删除)。
通过Core Dump文件定位容器问题 应用场景 Core Dump是Linux操作系统在程序突然异常终止或者崩溃时将当时的内存状态记录下来,保存在一个文件中。通过Core Dump文件可以分析查找问题原因。 容器一般将业务应用程序作为容器主程序,程序崩溃后容器直接退出,且被回收销毁,因此容器Core
不同操作系统情况如下: 当节点的OS版本为EulerOS 2.5和CentOS 7.6时,内核版本低于4.1,因此kube-proxy会保持系统原有的默认值net.ipv4.vs.conn_reuse_mode=1,将存在•问题2,即高并发场景存在1秒延时。 当节点的OS版本为Ubuntu
rometheus监控集群里的业务各项指标的话,很大程度上提高了维护成本和资源成本,同时数据也不方便汇聚到一块查看,这时候可以通过部署一套Prometheus,对接监控多个集群的指标信息。 方案架构 将多个集群对接到同一个Prometheus监控系统,如下所示,节约维护成本和资源成本,且方便汇聚监控信息。