检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Kubelet指标说明 指标 类型 说明 storage_operation_errors_total Counter 存储操作期间发生的错误次数 storage_operation_duration_seconds_count Counter 存储操作的操作次数 storage_operation_
com/kubernetes/kubernetes/blob/master/CHANGELOG/CHANGELOG-1.13.md v1.11到v1.12的变化: https://github.com/kubernetes/kubernetes/blob/master/CHANGELOG/CHANGELOG-1
tdout的日志策略,并上报所有命名空间下的标准输出到云日志服务(LTS)。 Kubernetes事件:开启后,将创建名为default-event的日志策略,并上报所有命名空间下的Kubernetes事件到云日志服务(LTS)。 配置完成后,单击右下角“下一步:确认配置”,在弹出的窗口中单击“确定”,完成创建。
印较多的日志,建议搭配日志服务使用,否则可能导致日志过多占满所在节点磁盘。 使用Volcano调度工作负载 使用Volcano调度工作负载时,只需要在Pod的spec字段中设置schedulerName参数并指定参数值为volcano,示例如下: apiVersion: apps/v1
io/tls:Kubernetes的TLS密钥类型,用于存放7层负载均衡服务所需的证书。kubernetes.io/tls类型的密钥示例及说明请参见TLS Secret。 IngressTLS:CCE提供的TLS密钥类型,用于存放7层负载均衡服务所需的证书。 其他:若需要创建其他类型的密钥,请手动输入密钥类型。
插件检查异常处理 检查项内容 当前检查项包括以下内容: 检查插件状态是否正常 检查插件是否支持目标版本 解决方案 问题场景一:插件状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“插件中心”处查看并处理处于异常状态的插件。 图1 查看插件状态 问题场景二:集群升级的目标版本已经不支持该插件
CRI-O容器运行时引擎任意代码执行漏洞(CVE-2022-0811) 漏洞详情 crowdstrike安全团队披露CRI-O 1.19版本中存在一个安全漏洞,攻击者可以利用该漏洞绕过保护措施并在主机上设置任意内核参数。这将导致任何有权在使用CRI-O的Kubernetes集群上部署Pod的用户都可以滥用kernel
ics API的插件,您可根据实际需求选择其中之一: Kubernetes Metrics Server:提供基础资源使用指标,例如容器CPU和内存使用率。 云原生监控插件:使用Prometheus提供基础资源使用指标,需将Prometheus注册为Metrics API的服务,详见通过Metrics
EulerOS 2.9:内核版本kernel-4.19.90-vhulk2103.1.0.h819.eulerosv2r9.aarch64 解决方法 若您的集群版本为1.19.16-r0、1.21.7-r0、1.23.5-r0、1.25.1-r0及以上,请将节点重置为最新版本的操作系统即可修复该问题。
节点磁盘检查异常处理 检查项内容 当前检查项包括以下内容: 检查节点关键数据盘使用量是否满足升级要求 检查/tmp目录是否存在500MB可用空间 解决方案 节点升级过程中需要使用磁盘存储升级组件包,使用/tmp目录存储临时文件。 问题场景一:Master节点磁盘使用量不满足升级要求 请联系技术支持人员排查处理。
按需计费集群转包周期 当前在CCE中购买集群时支持“按需计费”和“包年/包月”(按周期)两种计费方式。按需计费的购买的集群可以转成包年/包月计费的集群。 如果您需要将按需计费的节点转为包年/包月计费,请参见按需节点转包年/包月。 按需集群转包年/包月 如果您在购买按需计费的集群后
otel-collector 负责收集来自不同应用程序和服务的日志数据,集中后上报至LTS。 Deployment 插件使用说明 该插件支持采集容器标准输出日志、容器文件日志、节点日志及K8s事件日志。您可以选择使用云日志服务(LTS)或应用运维管理服务(AOM)存储日志,但二者支持的日志类型存在差异,详情请参见表3。
nit容器启动失败。 Pod运行状态为Init:CrashLoopBackOff,说明Pod中的Init容器启动失败并处于反复重启状态。 解决方案 查看Pod的事件,确认当前Pod中未启动的Init容器是否存在异常。具体操作,请参见Pod事件查看方法。 查看Pod中未启动的Ini
容器不允许使用超过其限制的内存,超过后容器可能会被终 止,触发OOM(Out Of Memory)事件,导致容器异常退出。关于OOM事件,可以参考为容器和Pod分配内存资源。 解决方案 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。
云容器引擎CCE配额只限制了集群个数,但是用户使用CCE时也会使用其他云服务,包括:弹性云服务器、云硬盘、虚拟私有云、弹性负载均衡、容器镜像服务等。 什么是配额? 为防止资源滥用,平台限定了各服务资源的配额,对用户的资源数量和容量做了限制。如您最多可以创建多少台弹性云服务器、多少块云硬盘。 如果当前资源配额限制无法满足使用需要,您可以申请扩大配额。
但在内核中没有释放cssid,导致内核认为的cgroup的数量实际数量不一致,残留的cgroup达到节点上限后,导致该节点无法继续新建Pod。 解决方法 该问题可以通过可以在内核层全局使用 “cgroup.memory=nokmem” 参数关闭kmem使用防止发生泄漏。 1.17集群版本已停止维护,修复该问题建议升级至1
编写开机运行脚本 应用容器化时,一般需要准备开机运行的脚本,写作脚本的方式和写一般shell脚本相同。该脚本的主要目的包括: 启动应用所依赖的软件。 将需要修改的配置设置为环境变量。 开机运行脚本与应用实际需求直接相关,每个应用所写的开机脚本会有所区别。请根据实际业务需求来写该脚本。
操作系统节点内核版本。 accelerator/huawei-npu NPU节点标签。 accelerator GPU节点标签。 cce.cloud.com/cce-nodepool 节点池节点专属标签。 添加/删除节点标签 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧
CPU真实负载阈值 节点CPU真实利用率超过该阈值后,会根据真实负载阈值生效方式,将工作负载优先或强制调度到其他节点。 80 内存真实负载阈值 节点内存真实利用率超过该阈值后,会根据真实负载阈值生效方式,将工作负载优先或强制调度到其他节点。 80 配置建议: 为达到最优的负载感知
le.yaml vi efs-deployment-example.yaml 在无状态工作负载中基于pvc共享式使用极速文件存储示例: apiVersion: apps/v1 kind: Deployment metadata: name: efs-deployment-example