搜索_华为云

Kubeflow部署 - 云容器引擎 CCE
Kubeflow部署 - 云容器引擎 CCE

Kubeflow的诞生背景基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程，它需要处理很多个环节。如图1所示，除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲，如果要做

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
节点配置一致性检查异常处理 - 云容器引擎 CCE

节点配置一致性检查异常处理检查项内容在升级集群版本至v1.19及以上版本时，将对您的节点上的Kubenertes组件的配置进行检查，检查您是否后台修改过配置文件。 /opt/cloud/cce/kubernetes/kubelet/kubelet /opt/cloud/cce

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
CCE最佳实践汇总 - 云容器引擎 CCE

CD对接CCE完成不同测试、生产环境业务部署为帮助企业高效上云，华为云Solution as Code萃取丰富上云成功实践，提供一系列基于华为云可快速部署的解决方案，帮助用户降低上云门槛。同时开放完整源码，支持个性化配置，解决方案开箱即用，所见即所得。表3 Solution as Code一键式部署类最佳实践汇总

 帮助中心 > 云容器引擎 CCE > 最佳实践
插件安装失败，提示The release name is already exist如何解决？ - 云容器引擎 CCE

插件安装失败，提示The release name is already exist如何解决？问题现象当安装插件失败，返回 The release name is already exist 错误。问题原因当安装插件返回The release name is already

帮助中心 > 云容器引擎 CCE > 常见问题 > 模板插件
工作负载异常：存储卷无法挂载或挂载超时 - 云容器引擎 CCE

在EVS中对磁盘进行备份，然后执行如下命令修复文件系统。 fsck -y {盘符} SFS Turbo存储卷挂载异常问题现象问题根因解决方案普通容器场景，Pod状态为“处理中”，且Pod的事件中有如下内容： MountVolume.SetUp failed for volume {pv name}

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 工作负载异常问题排查
kube-prometheus-stack插件实例调度失败如何解决？ - 云容器引擎 CCE

kube-prometheus-stack插件实例调度失败如何解决？问题现象安装kube-prometheus-stack插件时，插件状态一直处于“部分就绪”，查看插件的prometheus实例事件中提示“0/x nodes are available: x node(s)

帮助中心 > 云容器引擎 CCE > 常见问题 > 模板插件
如何避免非GPU/NPU负载调度到GPU/NPU节点？ - 云容器引擎 CCE

如何避免非GPU/NPU负载调度到GPU/NPU节点？问题现象当集群中存在GPU/NPU节点和普通节点混合使用的场景时，普通工作负载也可以调度到GPU/NPU节点上，可能出现GPU/NPU资源未充分利用的情况。问题原因由于GPU/NPU节点同样提供CPU、内存资源，在一般

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 调度策略
节点异常问题排查 - 云容器引擎 CCE

析域名。排查是否为包周期节点退订如果该节点是否为包周期节点。节点退订后，订单处理需要一定时间。在此期间节点将处于不可用状态，预计5~10分钟后自动清理该节点，无需做额外处理。常见问题解决方案节点PIDPressure 问题根因节点上的容器占用PID过多导致节点的PID

帮助中心 > 云容器引擎 CCE > 常见问题 > 节点
云容器引擎-成长地图 - 云容器引擎 CCE

如果工作负载不需要使用集群内的CoreDNS，如何设置？如何解读和修改Resolv.conf？域名解析失败，如何处理？更多节点类集群状态为“可用”，节点状态为“不可用”，如何处理？无法远程登录节点，怎么办？如何解决yum update升级操作系统导致容器网络不可用问题？如何重置CCE集群中节点的密码？

帮助中心 > 云容器引擎 CCE > 成长地图
修复Linux内核SACK漏洞公告 - 云容器引擎 CCE

性确认（SACK）功能相关，攻击者可远程发送特殊构造的攻击包造成拒绝服务攻击，导致服务器不可用或崩溃。华为云CCE团队已经紧急修复Linux内核SACK漏洞，并已发布解决方案。参考链接： https://www.suse.com/support/kb/doc/?id=7023928

帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
如何扩容容器的存储空间？ - 云容器引擎 CCE

如何扩容容器的存储空间？使用场景容器默认大小为10G，当容器中产生数据较多时，容易导致容器存储空间不足，可以通过此方法来扩容。解决方案登录CCE控制台，单击集群列表中的集群名称。在左侧导航栏中选择“节点管理”。切换至“节点”页签，选择集群中的节点，单击操作列中的“更多

 帮助中心 > 云容器引擎 CCE > 常见问题 > 存储管理
负载均衡类型Service异常问题排查 - 云容器引擎 CCE

e异常事件排查查找异常的解决方案。如果Service不存在异常事件，则一般为访问类问题或周边服务配置引入的问题，可参考根据常见问题对比排查查找异常的解决方案。根据Service异常事件排查不同异常事件的解决方法如下表所示：报错信息说明解决方案 Quota exceeded

帮助中心 > 云容器引擎 CCE > 常见问题 > 网络管理 > 网络异常问题排查
低版本内核的CentOS节点出现容器OOM时，偶现ext4文件系统卡死问题 - 云容器引擎 CCE

7会偶现触发ext4文件系统卡死，ext4/jbd2会因为死锁而永远挂起。在文件系统上执行I/O的所有任务都将受到影响。解决方法临时解决方案：该问题触发后可以通过重启节点临时恢复。长久解决方案：若您的集群版本为1.19.16-r0、1.21.7-r0、1.23.5-r0、1.25.1-r0及以上，请

 帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 操作系统问题说明
集群可用但节点状态为“不可用”如何解决？ - 云容器引擎 CCE

集群可用但节点状态为“不可用”如何解决？当集群状态为“可用”，而集群中部分节点状态为“不可用”时，请参照本文提供的排查思路解决。节点不可用检测机制说明 Kubernetes 节点发送的心跳确定每个节点的可用性，并在检测到故障时采取行动。检测的机制和间隔时间详细说明请参见心跳。

帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行
检查集群是否满足滚动升级条件 - 云容器引擎 CCE

检查集群是否满足滚动升级条件检查项内容检查到您的集群暂时不满足滚动升级条件。解决方案该检查失败一般由于资源租户的资源配额不足引起，无法支持滚动升级；请联系运维人员扩充资源之后重新检查。父主题：升级前检查异常问题排查

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
修改kubelet参数导致已驱逐的Pod被重新调度 - 云容器引擎 CCE

点。异常情况下，如果先执行心跳上报，再执行eviction manager的检测，则kubelet将会删除上一次的污点。解决方案对于该问题您可以无需处理，节点在一段时间后会自动驱逐Pod。父主题：调度策略

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 调度策略
ELB Ingress出现告警：Invalid input for rules - 云容器引擎 CCE

"error_code":"ELB.8902"."request_id": *****"} 解决方案该告警中的错误码ELB.8902表示请求参数输入有误，详情请参见弹性负载均衡错误码。您需要根据问题原因修改正确的参数配置。问题现象问题根因解决方案告警信息中包含以下内容： Reason: the number

帮助中心 > 云容器引擎 CCE > 常见问题 > 网络管理 > 网络异常问题排查
节点状态检查 - 云容器引擎 CCE

集群升级后，需要检查节点状态是否为“运行中”状态。检查步骤系统会自动为您检查集群内节点的状态，您可以根据诊断结果前往节点列表页面进行确认。解决方案集群节点异常时，建议您通过重置节点来解决，若无法解决，请联系技术支持人员。父主题：升级后验证

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级后验证
集群状态检查 - 云容器引擎 CCE

集群升级后，需要检查集群状态是否为“运行中”状态。检查步骤系统会自动为您检查集群状态是否正常，您可以根据诊断结果前往集群列表页面进行确认。解决方案当集群状态异常时，请联系技术支持人员。父主题：升级后验证

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级后验证
检查历史升级记录是否满足升级条件 - 云容器引擎 CCE

检查历史升级记录是否满足升级条件检查项内容检查集群的历史升级记录，要求您的集群原始版本满足升级到目标集群版本的条件。解决方案该问题一般由于您的集群从比较老的版本升级而来，升级风险较大，建议您优先考虑集群迁移若您仍然想要升级该集群，请您提交工单，联系技术支持人员进行评估。

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查

总条数： 903

上一页
1
...
5
6
7
...
46
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Kubeflow部署 - 云容器引擎 CCE

节点配置一致性检查异常处理 - 云容器引擎 CCE

CCE最佳实践汇总 - 云容器引擎 CCE

插件安装失败，提示The release name is already exist如何解决？ - 云容器引擎 CCE

工作负载异常：存储卷无法挂载或挂载超时 - 云容器引擎 CCE

kube-prometheus-stack插件实例调度失败如何解决？ - 云容器引擎 CCE

如何避免非GPU/NPU负载调度到GPU/NPU节点？ - 云容器引擎 CCE

节点异常问题排查 - 云容器引擎 CCE

云容器引擎-成长地图 - 云容器引擎 CCE

修复Linux内核SACK漏洞公告 - 云容器引擎 CCE

如何扩容容器的存储空间？ - 云容器引擎 CCE

负载均衡类型Service异常问题排查 - 云容器引擎 CCE

低版本内核的CentOS节点出现容器OOM时，偶现ext4文件系统卡死问题 - 云容器引擎 CCE

集群可用但节点状态为“不可用”如何解决？ - 云容器引擎 CCE

检查集群是否满足滚动升级条件 - 云容器引擎 CCE

修改kubelet参数导致已驱逐的Pod被重新调度 - 云容器引擎 CCE

ELB Ingress出现告警：Invalid input for rules - 云容器引擎 CCE

节点状态检查 - 云容器引擎 CCE

集群状态检查 - 云容器引擎 CCE

检查历史升级记录是否满足升级条件 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线