正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点配置一致性检查异常处理 检查项内容 在升级集群版本至v1.19及以上版本时,将对您的节点上的Kubenertes组件的配置进行检查,检查您是否后台修改过配置文件。 /opt/cloud/cce/kubernetes/kubelet/kubelet /opt/cloud/cce
如何避免非GPU/NPU负载调度到GPU/NPU节点? 问题现象 当集群中存在GPU/NPU节点和普通节点混合使用的场景时,普通工作负载也可以调度到GPU/NPU节点上,可能出现GPU/NPU资源未充分利用的情况。 问题原因 由于GPU/NPU节点同样提供CPU、内存资源,在一般
Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做
为PCI-Bridge异常,设备进入故障模式进而无法正常工作。如果此时前端正要写PCI配置空间让后端处理磁盘IO,那么这个写配置空间操作就可能会被剔除,导致后端接收不到通知去处理IO环上的新增请求,最终表现为前端IO卡住。 影响范围 对CentOS Linux内核3.10.0-1127
K8s废弃资源检查异常处理 检查项内容 检查集群是否存在对应版本已经废弃的资源。 解决方案 问题场景一: 1.25及以上集群中的service存在废弃的annotation:tolerate-unready-endpoints 报错日志信息如下: some check failed
如何扩容容器的存储空间? 使用场景 容器默认大小为10G,当容器中产生数据较多时,容易导致容器存储空间不足,可以通过此方法来扩容。 解决方案 登录CCE控制台,单击集群列表中的集群名称。 在左侧导航栏中选择“节点管理”。 切换至“节点”页签,选择集群中的节点,单击操作列中的“更多
如何制作Docker镜像?如何解决拉取镜像慢的问题? Docker镜像制作 关于如何通过Dockerfile定制一个简单的Web应用程序的Docker镜像,请参见Docker基础知识或如何制作Docker镜像? 拉取镜像加速 由于运营商网络问题可能导致公共镜像仓库中的镜像拉取速度
7会偶现触发ext4文件系统卡死,ext4/jbd2会因为死锁而永远挂起。在文件系统上执行I/O的所有任务都将受到影响。 解决方法 临时解决方案:该问题触发后可以通过重启节点临时恢复。 长久解决方案: 若您的集群版本为1.19.16-r0、1.21.7-r0、1.23.5-r0、1.25.1-r0及以上,请
可以帮助企业简化部署、监控、运维和治理等应用生命周期管理工作。ServiceStage面向企业提供微服务、移动和Web类应用开发的全栈解决方案,帮助您的各类应用轻松上云,聚焦业务创新,帮助企业数字化快速转型。 父主题: 相关服务
如何设置CCE集群中的容器网段? 进入CCE控制台,在创建集群时进行“容器网段”设置。 当前可供选择的容器网段为10.0.0.0/8~18,172.16.0.0/16~18,192.168.0.0/16~18。 集群创建完成后,如需添加容器网段,可前往集群信息页面,单击“添加容器网段”进行添加。
客户在有状态工作负载上挂载EVS存储卷,但无法挂载卷并超时。 问题定位: 经查询确认,该节点在可用区1,而要挂载的磁盘在可用区2,导致无法挂载而超时。 解决方案: 在同一可用区内创建磁盘再挂载后即可正常。 排查项二:存储中是否同时存在多条权限相关的配置 如果您挂载的存储中内容太多,同时又配置了以
检查历史升级记录是否满足升级条件 检查项内容 检查集群的历史升级记录是否满足升级条件。 解决方案 检查到该集群的历史升级记录不满足升级条件,升级风险较大,请联系技术支持人员。 父主题: 升级前检查异常问题排查
检查集群是否满足滚动升级条件 检查项内容 检查到您的集群暂时不满足滚动升级条件。 解决方案 该检查失败一般由于资源租户的资源配额不足引起,无法支持滚动升级,请联系运维人员扩充资源之后重新检查。 父主题: 升级前检查异常问题排查
集群升级后,需要检查集群状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群状态是否正常,您可以根据诊断结果前往集群列表页面进行确认。 解决方案 当集群状态异常时,请联系技术支持人员。 父主题: 升级后验证
CCE是否支持账户余额变动提醒? 系统会以邮件、短信形式给客户发送账户余额变动通知,包括账户余额调整、充值到账、客户在线充值等。 父主题: 计费类
集群升级后,需要检查节点状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群内节点的状态,您可以根据诊断结果前往节点列表页面进行确认。 解决方案 集群节点异常时,建议您通过重置节点来解决,若无法解决,请联系技术支持人员。 父主题: 升级后验证
检查集群管理平面网段是否与主干配置一致 检查项内容 检查集群管理平面网段是否与主干配置一致。 解决方案 检查到该集群中的管理平面网段与主干配置中的管理平面网段不一致,请联系技术支持人员。 父主题: 升级前检查异常问题排查
thinpool磁盘空间耗尽导致容器或节点异常时,如何解决? 问题描述 当节点上的thinpool磁盘空间接近写满时,概率性出现以下异常: 在容器内创建文件或目录失败、容器内文件系统只读、节点被标记disk-pressure污点及节点不可用状态等。 用户可手动在节点上执行docker
onfig配置文件,为日常运维带来许多不便。本文将为您介绍如何便捷地使用同一个kubectl客户端连接多个集群。 用于配置集群访问的文件称为kubeconfig配置文件,并不意味着文件名称为kubeconfig。 解决方案 在K8s集群的运维中,多集群之间的切换是无法避免的问题,常见的集群切换方案如下:
可能导致docker/containerd启动过慢,影响docker/containerd标准输出,影响nginx等功能的正常使用。 解决方案 请登录节点手动删除用不到的镜像,防止后续升级异常。 父主题: 升级前检查异常问题排查