检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE对节点内存的预留规则v2 对于v1.21.4-r0和v1.23.3-r0及以上版本集群,节点内存的预留规则优化为v2模型,且支持通过节点池配置管理参数(kube-reserved-mem和system-reserved-mem)动态调整,具体方法请参见修改节点池配置。
S0= #私钥内容,需要Base64编码 type: IngressTLS 使用kubectl创建密钥 请参见通过kubectl连接集群配置kubectl命令。 通过Base64编码,创建并编辑cce-secret.yaml文件。 # echo -n "待编码内容" | base64
同时在线,新版本和老版本相互热备,通过切换路由权重的方式(非0即100)实现应用的不同版本上线或者下线,如果有问题可以快速地回滚到老版本。 灰度发布或蓝绿发布实现方式 利用Kubernetes原生的特性可以实现简单的灰度发布或蓝绿发布,比如:通过修改Service的selecto
KMS密钥 选择一个密钥,仅支持 EC_P256、EC_P384、SM2 类型的密钥。 您可以前往密钥管理服务新增密钥。 验签镜像 验签镜像地址通过正则表达式进行匹配,例如填写docker.io/**表示对docker.io镜像仓库的镜像进行验签。如需对所有镜像验签,请填写**。 单击“安装”。
NS的安装及升级功能。您可以定义关注集群中的CoreDNS版本,如果版本可以升级请尽快安排业务无缝升级集群中的CoreDNS组件。 您可以通过以下流程升级集群中的CoreDNS: 登录CCE控制台,选择一个集群,在左侧导航栏中单击“插件中心”。 找到CoreDNS插件,单击“升级”按钮。
控制器名称,默认nginx。 namespace 是 String 插件部署的命名空间,默认kube-system。 service 是 表8 对外访问service配置 config 否 Map<String>String nginx配置参数,参考社区说明https://kubernetes
重置密码”,按照界面提示进行操作即可重置密码。 密码重置完成后,单击待操作节点后方操作列中的“更多 > 开机”,单击后方的“远程登录”即可通过密码登录该节点。 父主题: 节点运行
kubernetes.io/upgrade NoSchedule 解决方案 问题场景一:该节点为集群升级过程中跳过的节点。 配置Kubectl命令,具体请参见通过kubectl连接集群。 查看对应节点kubelet版本,以下为正常回显: 图1 kubelet版本 若该节点的VERSION与其他节点不
Volcano的目标是在业务负载未配置节点软亲和时,在调度层将业务的Pod软调度到指定节点上。 调度优先级介绍 节点池软亲和调度,是通过节点池上的标签(Label)进行软亲和,具体是通过给每一个节点进行打分的机制来排序筛选最优节点。 原则:尽可能把Pod调度到带有相关标签的节点上。 打分公式如下: score
在进行优先级调度时,仅根据主资源的Share值进行优先级调度。 例如,Job 1和Job 2分别为两个工作负载,其请求的资源量如图所示, 通过DRF计算之后,Job 1的主资源为Memory,对应的Share值为0.4,Job 2的主资源为CPU,对应的Share值为0.5,根据Share值对比,Job
、聚合、计数的预处理,因此Kubernetes Event事件并非100%打印,在遇到大批量打印相同事件时,可能会出现上述问题。 以上逻辑通过Kubernetes源码中的EventCorrelate方法实现,您可以查看社区的设计方案了解详情。 该问题为Kubernetes设计机制导致,因此您可以无需关注。
卡的物理显存,一般是因为存在一些非GPU虚拟化发放的容器,占用了显存。 通过CCE控制台或kubectl命令,将目标节点的GPU负载排空。 执行rmmod xgpu_km,进行GPU虚拟化模块的删除。 通过CCE控制台或kubectl命令,将目标节点的nvidia-gpu-device-plugin
查看Pod的事件,确认当前Pod中未启动的Init容器是否存在异常。具体操作,请参见Pod事件查看方法。 查看Pod中未启动的Init容器的日志,通过日志内容排查问题。具体操作,请参见容器日志查看方法。 查看Pod的配置,确认未启动的Init容器配置是否正常。具体操作,请参见Pod配置查
登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 通过Pod内存监控查看内存增长曲线,确定异常出现时间。 根据监控、内存增长时间点、日志、进程名等信息,排查Pod内对应进程是否存在内存泄漏。
如何重置CCE集群中节点的密码? 如何收集CCE集群中节点的日志? 如何解决yum update升级操作系统导致的容器网络不可用问题? Node节点vdb盘受损,通过重置节点仍无法恢复节点? CCE集群节点中安装kubelet的端口主要有哪些? 如何配置Pod使用GPU节点的加速能力? 容器使用SCSI类型云硬盘偶现IO卡住如何解决?
exec"命令,升级集群版本时将触发docker版本更新,触发docker重启,因此存在建议: 建议您提前排空、隔离该节点后进行集群升级。 建议您升级至1.19及更高版本后,通过重置节点操作更换更高版本镜像,例如欧拉2.9镜像。 父主题: 升级前检查异常问题排查
以选择的节点规格。 纳管节点时已分区的数据盘会被忽略,您需要保证节点至少有一个未分区且符合规格的数据盘。 排查步骤 您也可以参考以下步骤,通过集群日志查看节点纳管失败的报错信息,然后根据相应的解决方法解决问题: 登录CCE控制台,单击集群列表上方的“操作记录”查看具体的报错信息。
/local/nvidia/lib64追加到LD_LIBRARY_PATH环境变量中。v1.28及以上的集群中则无需执行此步骤。 通常可以通过如下三种方式追加环境变量。 制作镜像的Dockerfile中配置LD_LIBRARY_PATH。(推荐) ENV LD_LIBRARY_PATH
器网卡高低水位预热。集群升级后,原始的高低水位预热参数配置会自动转换为容器网卡动态预热参数配置;但如果用户要通过console页面进一步修改容器网卡动态预热参数,需要先通过集群的配置管理console页面把原始的高低水位预热配置修改为(0:0)。 CCE Turbo节点池的节点类型为裸金属服务器时,1
异常Pod清理 本服务kubelet的GC回收机制与社区保持一致,在清除Pod的Owner(例如Deployment)后,异常Pod也会随之清理。 通过kubelet命令,删除有异常记录的Pod。 父主题: 工作负载异常问题排查