检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
failure:失败,#failure=3,表示连续3次失败后会重启容器 以上存活探针表示:容器启动后立即进行探测,如果1s内容器没有给出回应则记作探测失败。每次间隔10s进行一次探测,在探测连续失败3次后重启容器。 这些是创建时默认设置的,您也可以手动配置,如下所示。 apiVersion:
使用kubectl部署带对象存储卷的有状态工作负载 操作场景 CCE支持使用已有的对象存储卷(PersistentVolumeClaim),创建有状态工作负载(StatefulSet)。 约束与限制 如下配置示例适用于Kubernetes 1.13及以下版本的集群。 操作步骤 参
状态,当节点处于NotReady状态超过一段时间后,驱逐该节点上所有Pod。 kube-controller-manager提供了以下启动参数控制驱逐: pod-eviction-timeout:即当节点宕机时间超过一定的时间间隔后,开始驱逐宕机节点上的Pod,默认为5min。
如何避免节点上的某个容器被驱逐? 为什么Pod在节点不是均匀分布? 如何驱逐节点上的所有Pod? 如何查看Pod是否使用CPU绑核? 节点关机后Pod不重新调度 如何避免非GPU/NPU负载调度到GPU/NPU节点? 为什么Pod调度不到某个节点上? 父主题: 工作负载
节点关键命令检查异常处理 检查项内容 检查节点升级依赖的一些关键命令是否能正常执行。 解决方案 问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --rebuilddb
目录,执行nvidia-smi -q命令。 若nvidia-smi命令不存在或执行失败,有可能是驱动安装未就绪导致,可以重新安装GPU驱动后,再重试。 观察执行结果中的ECC ERROR(发生ECC故障的记录)。 Correctable Error:不会影响业务,不会触发GPU隔离。
cgroup统计资源异常导致kubelet驱逐Pod 低版本内核的CentOS节点出现容器OOM时,偶现ext4文件系统卡死问题 IPVS缺陷导致节点上升级CoreDNS后出现概率性解析超时 节点ARP表项超过限制 EulerOS 2.9内核缺陷导致虚拟机卡住 父主题: 节点
tmpfs-example-001 限制业务容器访问管理面 在节点上的业务容器无需访问kubernetes时,可以通过以下方式禁止节点上的容器网络流量访问到kube-apiserver。 查询容器网段和内网apiserver地址。 在CCE的“集群管理”界面查看集群的容器网段和内网apiserver地址。
中,可以管理大量的解析记录,解析记录专门管理,增删记录无需修改CoreDNS配置。 注意事项 CoreDNS修改配置需额外谨慎,因为CoreDNS负责集群的域名解析任务,修改不当可能会导致集群解析出现异常。请做好修改前后的测试验证。 为CoreDNS配置存根域 集群管理员可以修改CoreDNS
resholdPercent两个配置参数定期回收未在使用中的镜像。如果在节点上使用docker或crictl命令行启动容器,那么在容器停止后,它将处于退出状态,但并未完全删除,这意味着该容器仍然引用着容器镜像。由于kubelet无法感知到非Pod产生的容器,也就无法感知到该容器镜
2.29。 节点上的第一块数据盘(供容器运行时和Kubelet组件使用)不支持导入为存储池。 条带化模式的存储池不支持扩容,条带化存储池扩容后可能造成碎片空间,无法使用。 存储池不支持缩容和删除。 如果删除节点上存储池的磁盘,会导致存储池异常。 导入存储池 创建节点时导入 在创建节
继续执行集群升级任务(已废弃) 获取集群升级任务详情列表 集群升级前检查 获取集群升级前检查任务详情 获取集群升级前检查任务详情列表 集群升级后确认 集群备份 获取集群备份任务详情列表 获取集群升级相关信息 获取集群升级路径 获取集群升级特性开关配置 开启集群升级流程引导任务 获取UpgradeWorkFlows列表
靠的Kubernetes版本,如果您仍在使用1.9.7或1.9.10版本集群,请尽快升级到较新版本集群,CCE预计将在2021年4月30日后关闭对应升级通道,请您务必在此之前升级您的Kubernetes集群。 升级方法请参见集群版本升级说明。 父主题: 集群版本公告
对应的PV对象。 在有状态负载中动态挂载本地持久卷:仅有状态工作负载支持,可以为每一个Pod关联一个独有的PVC及PV,当Pod被重新调度后,仍然能够根据该PVC名称挂载原有的数据。适用于多实例的有状态工作负载。 本地持久卷不支持通过静态PV使用,即不支持先手动创建PV然后通过PVC在工作负载中挂载的方式使用。
github.io/gatekeeper/website/docs/ 约束与限制 如果您已经在集群中部署了社区的Gatekeeper,请您先将其卸载后再安装CCE提供的Gatekeeper插件,否则可能会出现插件安装失败的情况。 注意事项 Gatekeeper提供的webhook的能力可能
com/ascend-310参数指定NPU数量时,requests和limits值需要保持一致。 指定huawei.com/ascend-310后,在调度时不会将负载调度到没有NPU的节点。如果缺乏NPU资源,会报类似“0/2 nodes are available: 2 Insufficient
23版本。 节点上的第一块数据盘(供容器运行时和Kubelet组件使用)不支持导入为存储池。 条带化模式的存储池不支持扩容,条带化存储池扩容后可能造成碎片空间,无法使用。 存储池不支持缩容和删除。 如果删除节点上存储池的磁盘,会导致存储池异常。 导入存储池 创建节点时导入 在创建节
如何根据集群规格调整插件配额? NGINX Ingress控制器插件处于Unknown状态时卸载残留 NGINX Ingress控制器插件升级后无法使用TLS v1.0和v1.1
参照表1设置命名空间参数。 表1 命名空间基本信息 参数 参数说明 名称 新建命名空间的名称,命名必须唯一。 描述 输入对命名空间的描述信息。 配额管理 资源配额可以限制命名空间下的资源使用,进而支持以命名空间为粒度的资源划分。 须知: 建议根据需要在命名空间中设置资源配额,避免因资源过载导致集群或节点异常。
使用共享型ELB对接Pod需要通过节点NodePort转发 容器IP地址管理 需设置单独的容器网段 按节点划分容器地址段,动态分配(地址段分配后可动态增加) 需设置单独的容器网段 按节点划分容器地址段,静态分配(节点创建完成后,地址段分配即固定,不可更改) 容器网段从VPC子网划分,无需设置单独的容器网段