检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做
节点配置一致性检查异常处理 检查项内容 在升级集群版本至v1.19及以上版本时,将对您的节点上的Kubenertes组件的配置进行检查,检查您是否后台修改过配置文件。 /opt/cloud/cce/kubernetes/kubelet/kubelet /opt/cloud/cce
CD对接CCE完成不同测试、生产环境业务部署 为帮助企业高效上云,华为云Solution as Code萃取丰富上云成功实践,提供一系列基于华为云可快速部署的解决方案,帮助用户降低上云门槛。同时开放完整源码,支持个性化配置,解决方案开箱即用,所见即所得。 表3 Solution as Code一键式部署类最佳实践汇总
插件安装失败,提示The release name is already exist如何解决? 问题现象 当安装插件失败,返回 The release name is already exist 错误。 问题原因 当安装插件返回The release name is already
在EVS中对磁盘进行备份,然后执行如下命令修复文件系统。 fsck -y {盘符} SFS Turbo存储卷挂载异常 问题现象 问题根因 解决方案 普通容器场景,Pod状态为“处理中”,且Pod的事件中有如下内容: MountVolume.SetUp failed for volume {pv name}
kube-prometheus-stack插件实例调度失败如何解决? 问题现象 安装kube-prometheus-stack插件时, 插件状态一直处于“部分就绪”,查看插件的prometheus实例事件中提示“0/x nodes are available: x node(s)
如何避免非GPU/NPU负载调度到GPU/NPU节点? 问题现象 当集群中存在GPU/NPU节点和普通节点混合使用的场景时,普通工作负载也可以调度到GPU/NPU节点上,可能出现GPU/NPU资源未充分利用的情况。 问题原因 由于GPU/NPU节点同样提供CPU、内存资源,在一般
析域名。 排查是否为包周期节点退订 如果该节点是否为包周期节点。 节点退订后,订单处理需要一定时间。在此期间节点将处于不可用状态,预计5~10分钟后自动清理该节点,无需做额外处理。 常见问题解决方案 节点PIDPressure 问题根因 节点上的容器占用PID过多导致节点的PID
如果工作负载不需要使用集群内的CoreDNS,如何设置? 如何解读和修改Resolv.conf? 域名解析失败,如何处理? 更多 节点类 集群状态为“可用”,节点状态为“不可用”,如何处理? 无法远程登录节点,怎么办? 如何解决yum update升级操作系统导致容器网络不可用问题? 如何重置CCE集群中节点的密码?
性确认(SACK)功能相关,攻击者可远程发送特殊构造的攻击包造成拒绝服务攻击,导致服务器不可用或崩溃。 华为云CCE团队已经紧急修复Linux内核SACK漏洞,并已发布解决方案。 参考链接: https://www.suse.com/support/kb/doc/?id=7023928
如何扩容容器的存储空间? 使用场景 容器默认大小为10G,当容器中产生数据较多时,容易导致容器存储空间不足,可以通过此方法来扩容。 解决方案 登录CCE控制台,单击集群列表中的集群名称。 在左侧导航栏中选择“节点管理”。 切换至“节点”页签,选择集群中的节点,单击操作列中的“更多
e异常事件排查查找异常的解决方案。 如果Service不存在异常事件,则一般为访问类问题或周边服务配置引入的问题,可参考根据常见问题对比排查查找异常的解决方案。 根据Service异常事件排查 不同异常事件的解决方法如下表所示: 报错信息 说明 解决方案 Quota exceeded
7会偶现触发ext4文件系统卡死,ext4/jbd2会因为死锁而永远挂起。在文件系统上执行I/O的所有任务都将受到影响。 解决方法 临时解决方案:该问题触发后可以通过重启节点临时恢复。 长久解决方案: 若您的集群版本为1.19.16-r0、1.21.7-r0、1.23.5-r0、1.25.1-r0及以上,请
集群可用但节点状态为“不可用”如何解决? 当集群状态为“可用”,而集群中部分节点状态为“不可用”时,请参照本文提供的排查思路解决。 节点不可用检测机制说明 Kubernetes 节点发送的心跳确定每个节点的可用性,并在检测到故障时采取行动。检测的机制和间隔时间详细说明请参见心跳。
检查集群是否满足滚动升级条件 检查项内容 检查到您的集群暂时不满足滚动升级条件。 解决方案 该检查失败一般由于资源租户的资源配额不足引起,无法支持滚动升级; 请联系运维人员扩充资源之后重新检查。 父主题: 升级前检查异常问题排查
点。异常情况下,如果先执行心跳上报,再执行eviction manager的检测,则kubelet将会删除上一次的污点。 解决方案 对于该问题您可以无需处理,节点在一段时间后会自动驱逐Pod。 父主题: 调度策略
"error_code":"ELB.8902"."request_id": *****"} 解决方案 该告警中的错误码ELB.8902表示请求参数输入有误,详情请参见弹性负载均衡错误码。您需要根据问题原因修改正确的参数配置。 问题现象 问题根因 解决方案 告警信息中包含以下内容: Reason: the number
集群升级后,需要检查节点状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群内节点的状态,您可以根据诊断结果前往节点列表页面进行确认。 解决方案 集群节点异常时,建议您通过重置节点来解决,若无法解决,请联系技术支持人员。 父主题: 升级后验证
集群升级后,需要检查集群状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群状态是否正常,您可以根据诊断结果前往集群列表页面进行确认。 解决方案 当集群状态异常时,请联系技术支持人员。 父主题: 升级后验证
检查历史升级记录是否满足升级条件 检查项内容 检查集群的历史升级记录,要求您的集群原始版本满足升级到目标集群版本的条件。 解决方案 该问题一般由于您的集群从比较老的版本升级而来,升级风险较大,建议您优先考虑集群迁移 若您仍然想要升级该集群,请您提交工单,联系技术支持人员进行评估。