检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
llingUpdate。 请检查NVIDIA_DRIVER_DOWNLOAD_URL字段是否与插件页面的GPU驱动版本一致,若不一致,请在页面上修改为正确的驱动版本。 父主题: 升级前检查异常问题排查
新建Pod检查 检查内容 检查集群升级后,存量节点是否能新建Pod。 检查集群升级后,新建节点是否能新建Pod。 检查步骤 基于新建节点检查创建了新节点后,通过创建DaemonSet类型工作负载,在每个节点上创建Pod。 登录CCE控制台,单击集群名称进入集群。 在导航栏中选择“
升级管控检查异常处理 检查项内容 检查集群是否处于升级管控中。 解决方案 CCE基于以下几点原因,可能会暂时限制该集群的升级功能: 基于用户提供的信息,该集群被识别为核心重点保障的生产集群。 正在或即将进行其他运维任务,例如Master节点3AZ改造等。 集群中存在容器引擎为Do
数据分布:访问量PV分布(中国)、访问量PV分布(世界)、访问量UV分布(中国)、访问量UV分布(世界)、平均时延分布(中国)、平均时延分布(世界)、设备占比(终端)、设备占比(系统)。 TOP统计:区域访问TOP10(省份)、区域访问TOP10(城市)、Host访问TOP10、
ClusterIP:用于在集群内部互相访问的场景,通过ClusterIP访问Service。 NodePort:用于从集群外部访问的场景,通过节点上的端口访问Service,详细介绍请参见NodePort类型的Service。 LoadBalancer:用于从集群外部访问的场景,其实是NodeP
问题场景一:sudo命令执行失败 集群原地升级过程中依赖sudo命令正常可用,请登录节点执行如下命令,排查sudo命令可用性。 sudo echo hello 如果sudo命令不存在,请您从其他节点复制sudo命令到该节点。 问题场景二:关键文件不可修改 集群原地升级过程中会修改/etc/sudoers文件和/etc/sudoers
返回路由列表,可以看到刚添加的路由。 后续操作 如果涉及集群跨VPC访问其他服务的场景,您还需要关注所访问的云服务是否允许VPC外部访问,如部分服务可能需要添加白名单或放通安全组才允许访问。对于VPC网络模型的集群,您还需要额外放通容器网段。 以VPC网络模型的集群访问另一VPC下的ECS为例,您需要在ECS
检查集群是否可以正常创建节点。 检查步骤 登录CCE控制台,单击集群名称进入集群。 在导航栏中选择“节点管理”,并切换至“节点”页签,单击“创建节点”。节点配置详情请参见创建节点。 图1 创建节点 解决方案 若集群升级后您的集群无法创建节点,请联系技术支持人员。 父主题: 升级后验证
反向代理将外部流量导入到集群内部,将Kubernetes内部的Service暴露给外部,在Ingress对象中通过域名匹配Service,这样就可以直接通过域名访问到集群内部的服务。 nginx-ingress由ingress-controller和nginx组件组成: ingr
检查集群是否满足滚动升级条件 检查项内容 检查到您的集群暂时不满足滚动升级条件。 解决方案 该检查失败一般由于资源租户的资源配额不足引起,无法支持滚动升级; 请联系运维人员扩充资源之后重新检查。 父主题: 升级前检查异常问题排查
检查节点是否需要迁移。 解决方案 该问题由于节点拉包组件异常或节点由比较老的版本升级而来,导致节点上缺少关键的系统组件导致。 解决方案一 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面,单击对应节点的“更多 > 重置节点”,详情请参见重置节点。节点重置完毕后,重试检查任务。
节点paas用户登录权限检查异常处理 检查项内容 检查paas用户是否有登录权限。 解决方案 执行以下命令查看paas用户是否有登录权限: sudo grep "paas" /etc/passwd 如果paas用户权限中带有"nologin"或者"false",说明paas用户没有登录
从Pod访问集群外部网络 从Pod访问公网 从Pod访问同一VPC网络的云服务 从Pod访问不同VPC网络的云服务 父主题: 网络
节点关键命令检查异常处理 检查项内容 检查节点升级依赖的一些关键命令是否能正常执行。 解决方案 问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --rebuilddb
to 2 升级 在实际应用中,升级是一个常见的场景,Deployment能够很方便地支撑应用升级。 Deployment可以设置不同的升级策略,有如下两种。 RollingUpdate:滚动升级,即逐步创建新Pod再删除旧Pod,为默认策略。 Recreate:替换升级,即先把当前Pod删掉再重新创建Pod。
容器如何访问VPC内部网络 前面章节介绍了使用Service和Ingress访问容器,本节将介绍如何从容器访问内部网络(VPC内集群外),包括VPC内访问和跨VPC访问。 VPC内访问 根据集群容器网络模型不同,从容器访问内部网络有不同表现。 容器隧道网络 容器隧道网络在节点网络
状态说明 状态 说明 运行中 所有实例都处于运行中、或实例数为0时显示此状态。 未就绪 容器处于异常、负载下实例没有正常运行时显示此状态。 处理中 负载没有进入运行状态但也没有报错时显示此状态。 可用 当多实例无状态工作负载运行过程中部分实例异常,可用实例不为0,工作负载会处于可用状态。
集群状态检查 检查项内容 集群升级后,需要检查集群状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群状态是否正常,您可以根据诊断结果前往集群列表页面进行确认。 解决方案 当集群状态异常时,请联系技术支持人员。 父主题: 升级后验证
restart it”。 该问题是由于cce-agent没有重启导致,需要登录节点手动重启cce-agent。 解决方式:登录节点执行: systemctl restart cce-agent 执行完毕后,重新执行升级检查。 问题场景二: 错误信息为“your cce-agent is
节点ID文件检查异常处理 检查项内容 检查节点的ID文件内容是否符合格式。 解决方案 在CCE控制台上的“节点管理”页面,单击异常节点名称进入ECS界面。 复制节点ID,保存到本地。 图1 复制节点ID 登录异常节点,备份文件 。 cp /var/lib/cloud/data/instance-id /tmp/instance-id