检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当容器启动失败或终止时,K8s事件中将会打印容器异常退出状态码(Exit Code)来报告容器异常的原因。本文将介绍如何通过事件中打印的Exit Code进一步定位容器异常的根本原因。 查看容器异常退出状态码 您可使用kubectl连接集群,并通过以下命令查询Pod详细状态: kubectl describe
组成。而PromQL是Prometheus的核心组件之一,使用标识符和标签组成的简单表达式对时间序列进行筛选和聚合,使用户能够根据需要快速定位和解决问题。 有关PromQL的更多使用方法,请参见查询Prometheus。 通过控制台获取华为云Prometheus监控数据 在集群中
器组残留 排查项三:集群Secret落盘加密使用的KMS密钥是否有效 如果以上排查思路仍无法解决您的问题,请提交工单寻找客服人员协助您进行定位。 排查项一:安全组是否被修改 登录控制台,选择“服务列表 > 网络 > 虚拟私有云 VPC”,单击左侧导航栏的“访问控制 > 安全组”,找到集群控制节点的安全组。
遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等 解决方案 若集群升级后您的在线业务有异常,请联系技术支持人员。 父主题: 升级后验证
问题过程: 在一个正常的node节点上,删除lv,删除vg,节点不可用。 重置异常节点,重置过程中,报语法错误,而且节点不可用。 如下图: 问题定位 node节点中vg被删除或者损坏无法识别,为了避免重置的时候误格式化用户的数据盘,需要先手动恢复vg,这样重置的时候就不会去格式化其余的数据盘。
r-framework拓展默认调度器 kube-scheduler如何完成调度和调整调度权重 CCE云原生混部场景下在线任务抢占、压制离线任务CPU资源、保障在线任务服务质量效果测试 Kubernetes容器存储相关 Kubernetes子路径subpath原理及使用场景 Kubernetes容器域名相关
级高的业务SLO。 资源分级管控为业务潮汐明显的在线业务间混部、在线和离线业务混部奠定了基础。解决了应用预留资源较多、资源无法分时复用的问题。 在线作业与离线作业 从业务是否一直在线的角度看,其类型可分为在线作业和离线作业。 在线作业:一般运行时间长,服务流量呈周期性,资源存在潮
集群内资源占用非常低,可以显著节省您的计算和存储成本,AOM服务按照上报的指标量进行计费,其中,基础指标免费,自定义指标按量计费;自定义指标可以按需废弃,您可以仅保留基础免费指标使用AOM。 该模式暂不支持基于自定义普罗语句的HPA。 基于本地存储的传统模式与Prometheus
HCE打造云原生、高性能、高安全、易迁移等能力,加速用户业务上云,提升用户的应用创新空间,可替代CentOS、EulerOS等公共镜像。 适用于希望使用免费镜像,并延续开源社区镜像使用习惯的个人或企业。 Ubuntu操作系统 Linux的其他发行版操作系统,不同操作系统在使用习惯和应用兼容性上存在一定差异。
网络异常问题排查 工作负载网络异常时,如何定位排查? 负载均衡类型Service异常问题排查 集群内部无法使用ELB地址访问负载 集群外部访问Ingress异常 CCE集群中域名解析失败 为什么访问部署的应用时浏览器返回404错误码? 为什么容器无法连接互联网? VPC的子网无法删除,怎么办?
存储卷无法挂载或挂载超时排查思路 排查项一:EVS存储卷是否跨AZ挂载 问题描述: 客户在有状态工作负载上挂载EVS存储卷,但无法挂载卷并超时。 问题定位: 经查询确认,该节点在可用区1,而要挂载的磁盘在可用区2,导致无法挂载而超时。 解决方案: 在同一可用区内创建磁盘再挂载后即可正常。 排
域名DNS CCE集群内域名解析失败,如何定位处理? 为什么CCE集群的容器无法通过DNS解析? 为什么修改子网DNS配置后,无法解析租户区域名? 解析外部域名很慢或超时,如何优化配置? 如何设置容器内的DNS策略?
com”。支持在联系组创建完成后修改告警消息显示名。 添加订阅终端:您需要添加一个或多个订阅终端来接收告警消息。终端类型包括短信和邮件,选择“短信”时,请输入有效的手机号码;选择“邮件”时,请输入有效的电子邮件地址。 单击“确定”完成联系组的创建。 返回联系组列表,订阅终端状态为“未确认”,您需要继续执行后
以上修改都会导致CCE集群功能异常。 主动运维 云容器引擎提供多维度的监控和告警功能,配置监控告警,以便于异常时及时收到告警并进行故障定位。 云监控服务AOM:CCE默认的基础资源监控,覆盖详细的容器相关指标,并提供告警配置能力。 开源Prometheus:面向云原生应用程序
创建节点时执行安装前/后脚本 创建节点时使用OBS桶实现自定义脚本注入 选择合适的节点数据盘大小 节点日常管理实践 存储扩容 通过Core Dump文件定位容器问题 容器与节点时区同步 将节点容器引擎从Docker迁移到Containerd 节点安全实践 CCE节点安全配置建议 父主题: 节点
、弹性优化、成本优化的功能。 全场景支持,适合在线业务、深度学习、大规模成本算力交付等。 节点自动伸缩 CCE突发弹性引擎(对接CCI) 将Kubernetes API扩展到无服务器的容器平台(如CCI),无需关心节点资源。 适合在线突增流量、CI/CD、大数据作业等场景。 CCE容器实例弹性伸缩到CCI服务
创建节点时执行安装前/后脚本 创建节点时使用OBS桶实现自定义脚本注入 选择合适的节点数据盘大小 节点池日常管理实践 存储扩容 通过Core Dump文件定位容器问题 容器与节点时区同步 将节点容器引擎从Docker迁移到Containerd CCE节点安全配置建议 节点池弹性伸缩实践 使用HPA+CA实现工作负载和节点联动弹性伸缩
工作负载异常问题排查 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态
CCE集群中工作负载镜像的拉取策略有哪些? 网络管理 为什么访问部署的应用时浏览器返回404错误码? 节点无法连接互联网(公网),如何排查定位? 解析外部域名很慢或超时,如何优化配置?
公网访问CCE部署的服务并上传OBS,为何报错找不到host? 线下机器访问CCE部署的服务并上传OBS,报错找不到host,报错截图如下: 问题定位 服务收到http请求之后,向OBS传输文件,这些报文都会经过Proxy。 传输文件总量很大的话,会消耗很多资源,目前proxy分配内存1