检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群原地升级过程中会修改/etc/sudoers文件和/etc/sudoers.d/sudoerspaas文件,以获取sudo权限,更新节点上属主和属组为root的组件(例如docker、kubelet等)与相关配置文件。请登录节点执行如下命令,排查文件的可修改性。 lsattr -l /etc/sudoers
检查集群管理平面网段是否与主干配置一致 检查项内容 检查集群管理平面网段是否与主干配置一致。 解决方案 该问题由于您的局点做过管理面网段配置修改,导致主干配置中的管理平面网段不一致; 请您提交工单,联系技术支持人员修改配置之后重启检查。 父主题: 升级前检查异常问题排查
mode问题说明 发布时间:2022/01/27 CCE集群在IPVS模式下,通过Service方式访问集群内部服务,偶现1秒延时的情况,引起该问题的主要原因为社区IPVS连接复用Bug。 详情请参见CCE集群IPVS转发模式下conn_reuse_mode问题说明。 父主题: 产品变更公告
原因一:创建节点池时使用的密钥对被删除。 原因二:用户使用私有密钥对创建节点池,而其他用户无法使用该私有密钥对创建节点,导致节点池扩容失败。 解决方案: 对于原因一引起的扩容失败,您可以创建一个新的密钥对,并使用该密钥对创建新的节点池。 对于原因二引起的扩容失败,该节点池只能通过私有密钥对的创建者
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer
是一些常见的场景: 表1 容器重建的常见场景 常见场景 说明 容器崩溃或异常终止 当运行中的容器因软件错误、资源耗尽或其他意外情况崩溃时,为了确保服务的连续性,系统会自动重建容器以迅速恢复服务。 手动删除某容器 若手动删除了某个正在运行的容器,容器编排工具会根据定义的部署策略重新
支持选择“VPC网络”和“容器隧道网络”,默认即可。 * 虚拟私有云 新建集群所在的虚拟私有云。 若没有可选虚拟私有云,单击“新建虚拟私有云”进行创建,完成创建后单击刷新按钮。 * 控制节点子网 集群Master节点所在的子网。 * 容器网段 设置容器使用的网段,决定了集群下容器的数量上限。
正常的TCP三次握手后,会进行数据传输,但是在健康检查时会发送RST中断建立的TCP连接。该实现方式可能会导致后端服务器中的应用认为TCP连接异常退出,并打印错误信息,如“Connection reset by peer”。 这种错误是合理范围内的,无法避免的,不必关心它。 父主题: 网络异常问题排查
节点关键命令检查异常处理 检查项内容 检查节点升级依赖的一些关键命令是否能正常执行。 解决方案 问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --rebuilddb
在导航栏中选择“节点管理”,并切换至“节点”页签,单击“创建节点”。节点配置详情请参见创建节点。 图1 创建节点 解决方案 若集群升级后您的集群无法创建节点,请联系技术支持人员。 父主题: 升级后验证
检查当前集群中网络组件配置(eni)中节点预热容器网卡回收阈值(nic-max-above-warm-target)是否超过允许设置的最大值。 解决方案 根据错误信息确认受影响的范围,例如: configuration check failed: [nodepool id(1786cd55-xx
亲和策略的节点,否则插件实例将无法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment 实例的驱逐策略。
预置条件 本实践提供在CCE上运行caffe的基础分类例子https://github.com/BVLC/caffe/blob/master/examples/00-classification.ipynb的过程。 OBS存储数据预置 创建OBS桶,并确认以下文件夹已创建,文件已上传至指定位置(需要使用OBS
Pull第三方镜像仓库的镜像时,需设置为创建的secret名称。 kubectl创建工作负载拉取第三方镜像时,需指定的imagePullSecret字段,name表示pull镜像时的secret名称,创建密钥的方法请参见使用kubectl创建第三方镜像仓库的密钥。 排查项二:填写的镜像地址错误(使用第三方镜像时)
是否允许obs挂载时使用默认的aksk 默认false over_subscription 否 String localpv超分比 默认 80 csi_attacher_detach_worker_threads 否 String 处理卸卷操作的 worker 的并发数目 默认 60
1-63个字符,可包含小写英文字母,数字和中划线,并以小写字母开头,小写英文字母或数字结尾 无 支持初始化时配置,不支持后续修改 - 命名空间 参数名 取值范围 默认值 是否允许修改 作用范围 namespace 1-63个字符,可包含小写英文字母,数字和中划线,并以小写字母开头,小写英文字母或数字结尾
pu,设置对应的容器规格。 启动命令添加python /home/caffeEx00_GPU.py。 挂载刚刚导入的OBS存储盘: 单击“创建”。等待job执行完成,进入OBS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker
节点镜像层数量异常检查 检查项内容 检查到您的节点上镜像层数量过多(>5000层),可能导致docker/containerd启动过慢,影响docker/containerd标准输出。 如果您集群中使用了nginx,可能会出现转发变慢等问题。 解决方案 请登录节点手动删除用不到的镜像,防止后续升级异常。
系统会扫描过去一天的审计日志,检查用户是否调用目标K8s版本已废弃的API。 说明: 由于审计日志的时间范围有限,该检查项仅作为辅助手段,集群中可能已使用即将废弃的API,但未在过去一天的审计日志中体现,请您充分排查。 37 节点NetworkManager检查异常处理 检查节点上的NetworkManager状态是否正常。
回收策略配置为Retain时,当删除与之绑定的PVC,这个PV被标记为Released,且底层卷保留。回收策略为Delete时,当删除与之绑定的PVC,底层卷及PV也会被删除。 配置建议: 建议配置为Retain,避免误删与此PV绑定的PVC时导致底层卷被删除 父主题: 存储卷