检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
若用户通过前端console操作,在获取实例、更新实例等操作中CCE会自动尝试转换v2模板实例到v3模板实例。若用户仅在后台操作实例,需通过该指南进行转换操作。 转换流程(不使用Helm v3客户端) 在CCE节点上下载helm 2to3 转换插件。 wget https://github
IPVS缺陷导致节点上升级CoreDNS后出现概率性解析超时 故障现象 在集群使用IPVS转发的场景下,节点上升级CoreDNS后,可能出现概率性丢包,导致域名解析失败。 问题根因 该问题由IPVS缺陷导致,社区已在IPVS v5.9-rc1版本中修复该问题,详情请参见ipvs:
rageClass动态创建能力。有状态工作负载通过volumeClaimTemplates字段为每一个Pod关联了一个独有的PVC,而这个PVC又会和对应的PV绑定。因此当Pod被重新调度后,仍然能够根据该PVC名称挂载原有的数据。 静态挂载:与动态挂载相对,即工作负载中通过vo
避免IPVS缺陷导致的DNS概率性解析超时 问题描述 当集群使用IPVS作为kube-proxy负载均衡模式时,您可能会在CoreDNS缩容或重启时遇到DNS概率性解析超时的问题。 该问题由社区Linux内核缺陷导致,具体信息请参见https://github.com/torva
解决方案 NodeLocal DNSCache可以提升服务发现的稳定性和性能。 关于NodeLocal DNSCache的介绍及如何在CCE集群中部署NodeLocal DNSCache的具体步骤,请参见使用NodeLocal DNSCache提升DNS性能。 父主题: 客户端
谨慎调整VPC和虚拟机的DNS配置 CoreDNS启动时会默认从部署的实例上获取resolve.conf中的DNS配置,作为上游的解析服务器地址,并且在CoreDNS重启之前不会再重新加载节点上的resolve.conf配置。建议: 保持集群中各个节点的resolve.conf配
用。 检查步骤 系统会为您检查集群内是否存在跳过升级的节点,您可以根据诊断结果前往节点列表页进行确认。跳过的节点含有标签upgrade.cce.io/skipped=true。 解决方案 对于升级详情页面中跳过的节点,请在升级完毕后重置节点。 重置节点会重置所有节点标签,可能影响
Ingress与ELB配置一致性检查 检查项内容 检查到您集群中Ingress配置与ELB配置不一致,请确认是否在ELB侧修改过Ingress自动创建的监听器、转发策略、转发规则、后端云服务器组、后端云服务器和证书配置。 升级后会覆盖您在ELB自行修改的内容,请整改后再进行集群升级。
天显示。 使用成本洞察期间,要保证云原生监控插件运行正常,否则影响成本洞察中命名空间、工作负载、节点池等相关视图的呈现。 操作入口 登录CCE控制台,单击左侧导航栏中的“云原生成本治理”。 图1 云原生成本治理 查看部门分析模块。 图2 查看部门分析 单击部门成本明细中的某一部门名称,进入对应单部门视角。
imagelocality.weight 节点上面有Pod需要镜像的优先调度,默认值是1。 selectorspread.weight 把Pod均匀调度到不同的节点上,默认值是0。 podtopologyspread.weight Pod拓扑调度,默认值是2。 numa亲和性调度(numa-aware)
节点命令行检查异常处理 检查项内容 检查节点中是否存在升级所必须的命令。 解决方案 该问题一般由于节点上缺少集群升级流程中使用到的关键命令,可能会导致集群升级失败。 报错信息如下: __error_code#ErrorCommandNotExist#chage command is
节点paas用户登录权限检查异常处理 检查项内容 检查paas用户是否有登录权限。 解决方案 执行以下命令查看paas用户是否有登录权限: sudo grep "paas" /etc/passwd 如果paas用户权限中带有"nologin"或者"false",说明paas用户没
问题描述: 在什么场景下设置工作负载生命周期中的“停止前处理”? 问题解答: 服务的业务处理时间较长,在升级时,需要先等Pod中的业务处理完,才能kill该Pod,以保证业务不中断的场景。 父主题: 容器设置
容器使用SCSI类型云硬盘偶现IO卡住如何解决? 问题描述 容器使用SCSI类型的云硬盘存储,在CentOS节点上创建和删除容器触发磁盘频繁挂载卸载的场景,有概率会出现系统盘读写瞬时冲高,然后系统卡住的问题,影响节点正常工作。 出现该问题时,可在dmesg日志中观察到: Attached
K8s废弃API检查异常处理 检查项内容 系统会扫描过去一天的审计日志,检查用户是否调用目标K8s版本已废弃的API。 由于审计日志的时间范围有限,该检查项仅作为辅助手段,集群中可能已使用即将废弃的API,但未在过去一天的审计日志中体现,请您充分排查。 解决方案 检查说明 根据检
工作负载异常:GPU节点部署服务报错 问题现象 在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在
Helm模板检查异常处理 检查项内容 检查当前HelmRelease记录中是否含有目标集群版本不支持的K8s废弃API,可能导致升级后helm模板不可用。 解决方案 将HelmRelease记录中K8s废弃API转换为源版本和目标版本均兼容的API。 该检查项解决方案已在升级流程中自动兼容处理,此检查不再限制。您无需关注并处理。
节点DNS检查异常处理 检查项内容 当前检查项包括以下内容: 检查当前节点DNS配置是否能正常解析OBS地址 检查当前节点是否能访问存储升级组件包的OBS地址 解决方案 节点升级过程中,需要从OBS拉取升级组件包。此项检查失败,请联系技术人员支持。 父主题: 升级前检查异常问题排查
Toolkit版本,选择合适的NVIDIA驱动版本。 在选择Nvidia驱动时,建议您在满足下表中CUDA版本和驱动版本配套关系的前提下,优先选择CCE推荐的GPU驱动版本列表中提供的GPU驱动版本。若CCE推荐的驱动版本无法匹配您使用的CUDA Toolkit版本,必须使用非推荐的驱动版本,则需要您自行验证机型、系统及驱动版本间的配套兼容性。
检查项内容 检查本次升级的目标版本是否支持Secret落盘加密特性,若不支持则不允许开启Secret落盘加密特性的集群升级至该版本。 解决方案 CCE从v1.27版本开始支持Secret落盘加密特性,开放该特性的版本号如下: v1.27集群:v1.27.10-r0及以上 v1.28集群:v1