检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
由于当前GPU插件的驱动配置由您自行配置,需要您验证两者的兼容性。建议您在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。 您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE AI套件(NVIDIA
框架来支持业务的发展,这些框架都在相应的业务领域有着不可替代的作用,例如Spark,Tensorflow,Flink等。在业务复杂性能不断增加的情况下,单一的领域框架很难应对现在复杂的业务场景,因此现在普遍使用多种框架达成业务目标。但随着各个领域框架集群的不断扩大,以及单个业务的
ingressClassName: cce 表1 慢启动参数说明 参数 是否必填 参数类型 描述 kubernetes.io/elb.slowstart 否 String 负载均衡器向慢启动模式下的后端服务器Pod线性增加请求分配权重,当配置的慢启动持续时间期限结束后,负载均衡器向后端服
如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 排查项一:安全组是否被修改 排查项二:集群是否过载 排查项三:集群Secret落盘加密使用的KMS密钥是否有效 如果以上排查思路仍无法解决您的问题,请提交工单寻找客服人员协助您进行定位。 排查项一:安全组是否被修改 登录控制台,选择“服务列表 > 网络
192.168.135.24:/a/b/c。 检查Pod所在节点与需挂载的SFS Turbo文件系统间的网络是否打通。 在节点上执行如下指令,可测试SFS Turbo是否可以挂载。 mount -t nfs -o vers=3,nolock,noresvport {sfsturbo共享地址}
Ingress与ELB配置一致性检查 检查项内容 检查到您集群中Ingress配置与ELB配置不一致,请确认是否在ELB侧修改过Ingress自动创建的监听器、转发策略、转发规则、后端云服务器组、后端云服务器和证书配置。 升级后会覆盖您在ELB自行修改的内容,请整改后再进行集群升级。
0m,限制值为2000m;内存的申请值为500Mi,限制值为2000Mi。 高于100个节点,每增加100个节点(10000个Pod),建议CPU的申请值增加500m,内存的申请值增加1000Mi;CPU的限制值建议比申请值多1500m,内存的限制值建议比申请值多1000Mi。 申请值推荐计算公式:
通过Nginx Ingress对多个应用进行弹性伸缩 在实际的生产环境中,应用多实例部署可以提高应用的稳定性和可靠性,但也会增加资源的浪费和成本。因此,在进行多实例部署时,需要权衡资源利用率和应用性能之间的平衡,但手动调节实例数量存在伸缩不及时的问题,难以达到最佳的效果。 如果该应用使用Nginx
docker 如果重启失败,则检查操作系统其他位置(如:/etc/sysconfig/docker、/etc/default/docker)是否配置了registry-mirrors参数,删除此参数并重启容器引擎即可。 执行以下命令,查看Docker详细信息。 docker info
Service配置TLS协议,转发来自客户端加密的TCP协议请求。 Service配置TLS协议依赖ELB能力,使用该功能前请确认当前区域是否支持使用TLS协议,详情请参见添加TLS监听器(独享型)。 前提条件 已创建Kubernetes集群,且集群版本满足以下要求: v1.23集群:v1
Pod数量变为4后,由于没有资源,Pod处于Pending状态,触发了autoscaler默认的扩容策略,将节点数增加一个。 第二次节点扩容是因为集群中CPU分配率大于70%,触发了CA策略,从而将节点数增加一个,从控制台上伸缩历史可以看出来。根据分配率扩容,可以保证集群一直处于资源充足的状态。 停止访问负载,观察负载Pod数量。
Containerd: kubelet --> cri plugin(在containerd进程中) --> containerd 其中Docker虽增加了swarm cluster、docker build、docker API等功能,但也会引入一些bug,并且与Containerd相比,
临时存储卷概述 临时卷介绍 当有些应用程序需要额外的存储,但并不关心数据在重启后是否仍然可用。 例如,缓存服务经常受限于内存大小,而且可以将不常用的数据转移到比内存慢的存储中,对总体性能的影响并不大。另有些应用程序需要以文件形式注入的只读数据,比如配置数据或密钥。 Kubernetes中的临时卷(Ephemeral
K8s废弃API检查异常处理 检查项内容 系统会扫描过去一天的审计日志,检查用户是否调用目标K8s版本已废弃的API。 由于审计日志的时间范围有限,该检查项仅作为辅助手段,集群中可能已使用即将废弃的API,但未在过去一天的审计日志中体现,请您充分排查。 解决方案 检查说明 根据检
排查项八:检查节点thinpool空间是否充足 0/1 nodes are available: 1 Too many pods. 该节点调度的Pod超出上限。 检查项九:检查节点上调度的Pod是否过多 排查项一:集群内是否无可用节点 登录CCE控制台,检查节点状态是否为可用。或使用如下命令查看节点状态是否为Ready。
云容器引擎CCE如何定价/收费? CCE集群的计费方式如何由按需改为包年包月? CCE创建的节点是否支持按需转包周期? 华为云支持哪几种开具发票模式? CCE是否支持余额不足提醒? CCE是否支持账户余额变动提醒? 包周期的CCE集群到期可以直接删除吗? 如何退订我的云容器引擎?
节点CPU使用率检查异常处理 检查项内容 检查节点CPU使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
15及以上版本的集群,且需要安装基于CSI的everest插件才可以使用。 基于快照创建的云硬盘,其子类型(普通IO/高IO/超高IO)、是否加密、磁盘模式(VBD/SCSI)、共享性(非共享/共享)、容量等都要与快照关联磁盘保持一致,这些属性查询和设置出来后不能够修改。 只有可
节点ID文件检查异常处理 检查项内容 检查节点的ID文件内容是否符合格式。 解决方案 在CCE控制台上的“节点管理”页面,单击异常节点名称进入ECS界面。 复制节点ID,保存到本地。 图1 复制节点ID 登录异常节点,备份文件 。 cp /var/lib/cloud/data/instance-id
节点内存检查异常处理 检查项内容 检查节点内存使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查