检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
”事件,但是Kubernetes仅打印了4次“缩容空闲节点启动”的Event事件。 问题根因 出现该问题的原因是Kubernetes在处理Event事件时,为了后端服务etcd的可用性,会对事件进行限流、聚合、计数的预处理,因此Kubernetes Event事件并非100%打印
Pod出现Terminating 状态的原因可能有多种,以下是一些常见的情况: 节点异常:在节点处于“不可用”状态时,CCE会迁移节点上的容器实例,并将节点上运行的Pod置为Terminating状态。 待节点恢复后,处于Terminating状态的Pod会自动删除。 容器无响应:如果Pod中的容器在终止过
允许同时同步的资源对象的数量。配置数量越大,管理响应越快,但 CPU(和网络)负载也越高 参数名 取值范围 默认值 是否允许修改 作用范围 concurrent-deployment-syncs 大于等于0 5 允许 CCE Standard/CCE Turbo 允许同时同步的资源对象的数量。配置数量越大,管理响应越快,但
镜像中用户定义的命令在本机权限不足。 容器引擎与宿主机操作系统或硬件不兼容。 126 命令调用错误 镜像中调用的命令无法执行,例如文件权限不足或文件不可执行。 127 找不到文件或目录 无法找到镜像中指定的文件或目录。 128 无效的退出参数 容器退出但未提供有效的退出代码,可能的原因有
区域A对应的项目。 - 对端VPC 当账户选择“当前账户”时,该项为必选参数。 此处为对等连接另外一端的VPC,可以在下拉框中选择已有VPC作为对端VPC。 VPC-B 对端VPC网段 此处显示已选择的对端VPC的网段。 当您的本端VPC和对端VPC存在网段重叠的情况时,那么您的对等连接可能会不生效。
AI套件(NVIDIA GPU)插件配置节点的驱动文件路径,节点重启后会自动安装驱动。您也可以手动更新驱动的方式进行更新。 手动更新GPU节点的驱动版本为临时方案,适用于需要对某个节点进行差异化配置的场景,但节点重启后将自动重置为GPU插件配置中指定的版本。 如果需要稳定升级GPU节点驱
节点弹性策略创建完成后,可对创建的策略进行删除、编辑、停用、启用、克隆等操作。 查看节点弹性策略 您可以查看节点弹性策略的关联节点池、执行规则和伸缩历史,参照界面中的提示有针对性的解决异常问题。 在CCE控制台,单击集群名称进入集群。 单击左侧导航栏的“节点管理”,单击已创建弹性伸缩策略的节点池名称,查看节点池详情。
TFJob可在GPU场景下进行,该场景需要集群中包含GPU节点,并安装合适的驱动。 在TFJob中指定GPU资源。 创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflow的分布式架构,利用卷积神经网络(CNN)中的ResNet50模型对随机生成的图像进行训练,每次训练32张图像(ba
详细了解Pod的运行状态。 指标说明 Pod视图暴露的指标包括Pod资源指标、Pod网络指标和Pod磁盘指标,具体说明如下: 图1 Pod资源指标 表1 Pod资源指标说明 指标名称 单位 说明 容器数 个 Pod中的容器总数 运行中容器数 个 Pod中正在运行的容器个数 Pod状态
[tolerate-unready-endpoints] 检查日志信息中所给出的service是否存在"tolerate-unready-endpoints"的annotation,如果存在则将其去掉,并在对应的service的spec中添加下列字段来替代该annotation: publishNotReadyAddresses:
是集群级别的资源,它能够控制Pod规约中与安全性相关的各个方面。 PodSecurityPolicy对象定义了一组Pod运行时必须遵循的条件及相关字段的默认值,只有Pod满足这些条件才会被系统接受。 v1.17.17版本的集群默认启用Pod安全策略准入控制组件,并创建名为psp-global的全局默认安全策略,您
etes 1.15版本所做的变更说明。 为了能够更好地方便您使用容器服务,确保您使用稳定又可靠的Kubernetes版本,请您务必在维护周期结束之前升级您的Kubernetes集群。 版本说明 CCE针对Kubernetes v1.15版本提供了全链路的组件优化和升级,v1.15版本包含两个小版本,即v1
Everest插件在1.2.0版本优化了使用OBS存储时的密钥认证功能,请在Everest插件升级完成后(从低于1.2.0的版本升级到1.2.0及以上版本),重启集群中使用OBS的全部工作负载,否则工作负载使用OBS存储能力将受影响! 关于Everest插件的版本说明,请参见CCE容器存储插件(Everest)版本发布记录。
针对不健康的区域,故障节点业务的迁移频率会降级,避免规模故障场景下大规模迁移操作产生更坏的影响 配置建议: 无特殊需求建议保持默认配置 比例配置过大可能导致区域在规模故障场景下仍尝试执行大规模迁移动作,导致集群过载等风险 节点迁移速率 当某区域健康时,在节点故障的情况下每秒删除
数据盘不一致 将云服务器的数据盘配置修改成与节点池的数据盘配置一致。 修改云服务器的数据盘 企业项目不一致 将云服务器的企业项目修改成与节点池的企业项目一致。 修改云服务器的企业项目 云服务器组不一致 将云服务器的云服务器组修改成与节点池的云服务器组一致。 修改云服务器的云服务器组 修改云服务器的规格
在集群中移除节点会将该节点移出集群,然后重装节点的操作系统,并清理节点上的CCE组件。 移除不会删除节点对应的服务器。移除前请确认您的正常业务运行不受影响,请谨慎操作。 节点移出集群后会继续开机运行,并继续产生费用。 约束限制 若节点在CCE集群移除后重装操作系统失败,请手动完成失败节点的操作系统重装,并在重
在替换节点池、节点滚动升级等场景中,需要使用新节点池替换旧节点池。在这些场景下,为做到业务不感知,可以在业务触发变更时,将业务的Pod软亲和调度到新的节点池上。这种软亲和调度会尽量将新创建的Pod或者重调度的Pod调度到新的节点池,如果新节点池资源不足,或者新节点池无法调度,也要能将Pod调度到旧节点池上。节点池替
节点ARP表项超过限制 问题现象 ARP缓存超限,容器网络的访问出现异常,例如coredns域名解析概率失败。 问题根因 出现该问题的原因是节点上容器缓存的ARP表项超过限制。 问题定位 在节点操作系统内核为4.3以上时,dmsg日志中会有显性的打印neighbor table overfl
od事件查看方法。 查看Pod中未启动的Init容器的日志,通过日志内容排查问题。具体操作,请参见容器日志查看方法。 查看Pod的配置,确认未启动的Init容器配置是否正常。具体操作,请参见Pod配置查看方法。关于Init容器的更多信息,请参见调试Init容器。 父主题: 工作负载异常问题排查
其他节点上的Pod时,通常情况下,Pod的响应数据包会被自动执行SNAT,此时源地址会从Pod的IP地址变更为节点的IP地址。这种自动的IP地址转换可能会导致通信异常,从而使得跨节点的访问变得不可行。 为了确保节点能够正常访问位于其他节点上的Pod,需要将节点所在子网的网段添加到