检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
删除残留的模板实例无法从根本上解决该问题。为避免该问题再次发生,建议您及时更新模板中资源的apiVersion版本,保证资源apiVersion与Kubernetes版本匹配。 安装模板时,模板中的一些资源可能已经创建成功,因此首先要手动删除这些资源。确保残留的资源删除后,需删除模板实例。 若为 helm v2 的
除上述插件外,其他插件也可能因为集群规模调整而出现分配资源不足的情况,如您发现插件实例CPU或内存使用率明显增加,甚至出现OOM或无法运行的状况,请根据情况调整资源配额。 例如CCE容器监控插件占用的资源与集群中的容器数量相关,当集群规模调整后,容器数量可能同步增加,需要适当调大插件实例的资源配额。 父主题: 模板插件
基于priority策略的资源碎片重调度场景化配套策略,即在同优先级场景下,优先选择扩容后可使节点可分配资源的CPU/内存比,更接近于所有已调度Pods的申请的CPU/内存比。 此策略基于集群中全局Pods/Nodes全局资源而非仅扩容节点部分,主要配套重调度等相关能力降低集群整体资源碎片率,无相关配套独立使用场景不建议使用。
当集群进行升级时,集群中不同版本的kube-apiserver为不同的内置资源集(组、版本、资源)提供服务。在这种情况下资源请求如果由任一可用的apiserver提供服务,请求可能会到达无法解析此请求资源的apiserver中,导致请求失败。该特性能解决该问题。(主要注意的是,C
当集群进行升级时,集群中不同版本的kube-apiserver为不同的内置资源集(组、版本、资源)提供服务。在这种情况下资源请求如果由任一可用的apiserver提供服务,请求可能会到达无法解析此请求资源的apiserver中,导致请求失败。该特性能解决该问题。(主要注意的是,C
编辑Drainage资源的YAML。 Drainage-test.yaml示例如下: apiVersion: node.cce.io/v1 kind: Drainage metadata: name: 192.168.1.67-1721616409999 #Drainage资源名称 spec:
按需转包年/包月 如果您需要长期使用当前按需购买的集群和节点,可以将该资源转为包年/包月计费模式,以节省开支。按需计费变更为包年/包月会生成新的订单,用户支付订单后,包年/包月资源将立即生效。 以集群为例,假设用户于2023/04/18 15:29:16购买了一个按需计费的集群,由于业务需要,于2023/04/18
如果Pod进程因使用超过预先设定的限制值而非Node资源紧张情况,系统倾向于在其原来所在的机器上重启该容器。 如果资源充足,可将QoS Pod类型均设置为Guaranteed。用计算资源换业务性能和稳定性,减少排查问题时间和成本。 如果想更好的提高资源利用率,业务服务可以设置为Guarant
目前只能尝试重新创建,定位方法请参见定位失败原因。 当前集群规模所需的底层资源不足,请选择其他规模的集群类型后重新创建集群。 确认账号是否欠费:账号必须是未欠费状态才可以购买资源,包括使用代金券购买资源,详情请参见账户总览、欠费还款。 定位失败原因 您可以参考以下步骤,通过集群
Endpoints: ...... 如果此时给容器中创建一个/ready的文件,让Readiness Probe成功,则容器会处于Ready状态。再查看Pod和Endpoints,发现创建了/ready文件的容器已经Ready,Endpoints也已经添加。 # kubectl exec
查看kubectl的连接信息,并在弹出页面中下载配置文件。 配置kubectl。 登录到您的客户端机器,复制1.b中下载的配置文件(kubeconfig.json)到您客户端机器的/home目录下。 配置kubectl认证文件。 cd /home mkdir -p $HOME/.kube
19版本集群将docker的存储驱动文件系统由 xfs切换成ext4,可能会导致升级后的java应用Pod内的import包顺序异常,继而导致Pod异常。 升级前查看节点上docker配置文件/etc/docker/daemon.json。检查dm.fs配置项是否为xfs。 若为ext4或存储驱动为overlay则不涉及。
kube-apiserver支持的FeatureGate列表,多个特性","分割 开启 允许 CCE Standard/CCE Turbo 功能启用时,系统会将资源的字段管理信息存储在metadata.managedFields字段中,以记录历史操作的主体、时间、字段等信息 父主题: 集群
当节点cpu和内存负载过高时,会导致节点网络时延过高,或系统OOM,最终展示为不可用。 解决方案: 建议迁移业务,减少节点中的工作负载数量,并对工作负载设置资源上限,降低节点CPU或内存等资源负载。 将集群中对应的cce节点进行数据清理。 限制每个容器的CPU和内存限制配额值。 对集群进行节点扩容。 您也可以重启
对于包周期(包年/包月)预付费的节点池不能直接删除,请先移除节点池下全部的节点。 删除节点会导致与节点关联的本地持久存储卷类型的PVC/PV数据丢失,无法恢复,且PVC/PV无法再正常使用。删除节点时使用了本地持久存储卷的Pod会从删除的节点上驱逐,并重新创建Pod,Pod会一直处于pending状态,因为
由于DCGM Exporter为社区开源组件,因此本实践仅适用于监控Kubernetes社区原生的GPU资源(nvidia.com/gpu),不支持监控CCE提供的GPU虚拟化资源。 前提条件 目标集群已创建,且集群中包含GPU节点,并已运行GPU相关业务。 在集群中安装CCE AI
手动更新GPU节点驱动版本 一般情况下,您可以通过CCE AI套件(NVIDIA GPU)插件配置节点的驱动文件路径,节点重启后会自动安装驱动。您也可以手动更新驱动的方式进行更新。 手动更新GPU节点的驱动版本为临时方案,适用于需要对某个节点进行差异化配置的场景,但节点重启后将自动重置为GPU插件配置中指定的版本。
CE Turbo集群中,需要为Pod设置节点亲和性调度,以保证Pod不会调度到边缘节点,否则将导致固定IP无法保留。 不支持直接修改Pod对象的固定IP的annotations的值,如果直接修改的话,后台不会生效;如有修改诉求,请直接修改对应的StatefulSet工作负载spec
请求端集群为VPC网络模型时,目的端集群的节点安全组需放通请求端集群的VPC网段(包含节点子网)和容器网段。 请求端集群为容器隧道网络模型时,目的端集群的节点安全组需放通请求端集群的VPC网段(包含节点子网)。 请求端集群为云原生网络2.0模型时,目的端集群的ENI安全组和节点安全
集群的自动扩容有以下两种方式实现: 当集群中的Pod由于工作节点资源不足而无法调度时,会触发集群扩容,扩容节点与所在节点池资源配额一致。 此时需要满足以下条件时才会执行自动扩容: 节点上的资源不足。 Pod的调度配置中不能包含节点亲和的策略(即Pod若已经设置亲和某个节点,则不会自动