检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE节点事件中一直出现“镜像回收失败”告警如何解决? 问题现象 节点事件中,重复出现“镜像回收失败”告警,告警示例如下: wanted to free xx bytes, but freed xx bytes space with errors in image deletion:
如何配置Pod使用GPU节点的加速能力? 问题描述 我已经购买了GPU节点,但运行速度还是很慢,请问如何配置Pod使用GPU节点的加速能力。 解答 方案1: 建议您将集群中GPU节点的不可调度的污点去掉,以便GPU插件驱动能够正常安装,同时您需要安装高版本的GPU驱动。 如果您的
如何让多个Pod均匀部署到各个节点上? Kubernetes中kube-scheduler组件负责Pod的调度,对每一个新创建的 Pod 或者是未被调度的 Pod,kube-scheduler 会选择一个最优的节点去运行这个 Pod。kube-scheduler 给一个 Pod
使用CCE设置工作负载访问方式时,端口如何填写? CCE支持工作负载的内部互访和被互联网访问两种方式。 内部访问:包括集群内访问(通过集群虚拟IP)和节点访问(通过节点私有IP)两种方式。 表1 内部访问类型说明 内部访问类型 说明 端口如何填写 集群内访问(通过集群虚拟IP)
查其他可能原因。 排查项一:节点是否存在资源压力 排查项二:是否在实例上设置了tolerations 排查项三:是否满足停止驱逐实例的条件 排查项四:容器与节点上的“资源分配量”是否一致 排查项五:工作负载实例不断失败并重新部署 排查项一:节点是否存在资源压力 当满足硬性或软性驱
冻结或不可用的集群删除后如何清除残留资源 处于非运行状态(例如冻结、不可用状态)中的集群,由于无法获取集群中的PVC、Service、Ingress等资源,因此删除集群之后可能会残留网络及存储等资源,您需要前往资源所属服务手动删除。 弹性负载均衡资源 前往弹性负载均衡控制台。 通过集群使用的VPC
{namespaces} 创建新的有状态应用 kubectl create -f sts.yaml 检查业务功能。 检查业务功能是否正常。 检查数据是否丢失。 若功能或数据检查异常需要回退,请执行步骤4,选择FlexVolume格式的PVC并单击提交升级。 卸载FlexVolume格式的PVC。
如何避免非GPU/NPU负载调度到GPU/NPU节点? 问题现象 当集群中存在GPU/NPU节点和普通节点混合使用的场景时,普通工作负载也可以调度到GPU/NPU节点上,可能出现GPU/NPU资源未充分利用的情况。 问题原因 由于GPU/NPU节点同样提供CPU、内存资源,在一般
CCE集群中的EVS存储卷被删除或者过期后是否可以恢复? 云硬盘EVS存储需要人工配置备份策略。如果卷被删除或者释放,可以使用云硬盘备份恢复数据。 详细请参见备份云硬盘。 父主题: 存储管理
CCE节点NTP时间不同步如何解决? 问题现象 节点上的ntpd在长时间无法连接ntpserver等特殊场景下,可能导致偏移量过大,无法自动恢复。 问题检测 CCE节点故障检测插件(npd)中已包含节点时间同步检查项,您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。
安装Volcano后,您可通过“配置中心 > 调度配置”选择开启或关闭DRF调度能力,默认开启。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“配置中心”,在右侧选择“调度配置”页签。 在“AI任务性能增强调度”配置中,选择是否开启“公平调度 (drf) ”。 启用该能力后,可增强集群业务的吞吐量,提高业务运行性能。
误删除该资源需要使用正确的配置重新创建default-network资源。 启动iptables防火墙 CCE默认不开启iptables防火墙,开启后可能造成网络不通 说明: 不建议开启iptables防火墙。如必须启动iptables防火墙,请在测试环境中确认/etc/sysconfig/iptables和
如何解决VPC网段与容器网络冲突的问题? 在集群创建页面,若“容器网段”配置与“VPC网段”冲突,界面会提示“该网段与VPC网段有冲突,请重新选择”,重新调整“容器网段”即可。 图1 网段冲突提示 父主题: 网络异常问题排查
异构资源调度(Volcano调度器支持) Kube-scheduler 调度器 kube-scheduler 提供社区原生调度器标准调度能力。 启用volcano增强能力:需安装Volcano 调度器插件。开启后为您提供资源利用率优化、AI任务性能增强、异构资源管理等高级调度能力,提升集群资源利用率,节约使用成本。 Volcano调度器增强配置:
CCE控制台的权限依赖 CCE对其他云服务有诸多依赖关系,因此在您开启IAM授权后,在CCE Console控制台的各项功能需要配置相应的服务权限后才能正常查看或使用,详细说明如下: 依赖服务的权限配置均基于您已设置了IAM授权的CCE FullAccess或CCE ReadOn
node名称不支持修改,修改后会导致节点不可用及容器网络异常等故障,所以不支持更换节点私网IP。 支持修改公网IP:节点上的公网IP可以在ECS控制台更换。 修改节点私网IP后如何恢复 节点私网IP修改后,会导致节点不可用。这时您需要将节点的私网IP修改回原来使用的IP。 在CCE控制台,查看节点详情,找到该节点之前使用的IP和子网。
节点数范围:弹性伸缩时节点池下的节点数量会始终介于节点数范围内。 冷却时间:指当前节点池扩容出的节点多长时间不能被缩容。 伸缩对象 规格选择:对节点池中的节点规格单独设置是否开启弹性伸缩。 当节点池中包含多个规格时,您可以对每个规格的节点数范围和优先级进行单独配置。 配置完成后,单击“确定”。 父主题: 管理节点池
如果不配置集群管理权限的情况下,是否可以使用API呢? CCE提供的API可以分为云服务接口和集群接口: 云服务接口:支持操作云服务层面的基础设施(如创建节点),也可以调用集群层面的资源(如创建工作负载)。 使用云服务接口时,必须配置集群管理(IAM)权限。 集群接口:直接通过Kubernetes原生API
CCE集群中的节点无法远程登录,如何排查解决? CCE创建节点成功后,无法ssh远程登录。ssh回显提示“所选的用户密钥未在远程主机上注册”,即root用户不能直接登录到节点。 出现上述问题的原因是CCE创建的节点安装了cloudinit,有默认的linux用户,并且该密钥也是用于linux。
如何设置CCE集群中的VPC网段和子网网段? VPC中的子网网段一旦创建,便无法更改。创建虚拟私有云时,请预留一定的VPC网段和子网网段资源,避免后续无法扩容。 子网网段可在“创建虚拟私有云”页面的“子网配置 > 子网网段”中进行设置。在设置选项下可查看到“可用IP数”。 容器网