检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过“创建节点”的“安装后执行脚本”功能,在节点创建完成后,执行命令加固节点。具体操作步骤参考创建节点的“云服务器高级设置”的“安装后执行脚本”。“安装后执行脚本”的内容需由用户提供。 通过CCE提供的“私有镜像制作”功能,制作私有镜像作为集群的工作节点镜像。用户按照指导,基于自己的安全加
true参数,详情请参见在Pod中配置主机网络(hostNetwork)。配置完成后的Pod会占用宿主机的端口,Pod的IP就是宿主机的IP,不会占用容器网络的IP。使用时需要考虑是否与宿主机上的端口冲突,因此一般情况下除非某个特定应用必须使用宿主机上的特定端口,否则不建议使用主机网络。 父主题: 附录
如何解决yum update升级操作系统导致的容器网络不可用问题? CCE控制台不提供针对节点的操作系统升级,也不建议您通过yum方式进行升级。 如果您在节点上通过yum update升级了操作系统,会导致容器网络的组件不可用。 您可以通过如下方式手动恢复: 当前该恢复方式仅针对EulerOS
挂载的普通数据盘支持下调至10G。 调整容器运行时和Kubelet组件使用的数据盘大小存在一些风险,根据本文提供的预估方法,建议综合评估后再做实际调整。 过小的数据盘容量可能会频繁出现磁盘空间不足,导致镜像拉取失败的问题。如果节点上需要频繁拉取不同的镜像,不建议将数据盘容量调小。
现资源在云上云下的弹性伸缩、平滑迁移和扩容。 计算与数据分离,能力共享 通过云容器引擎,用户可以实现敏感业务数据与一般业务数据的分离,可以实现开发环境和生产环境分离,可以实现特殊计算能力与一般业务的分离,并能够实现弹性扩展和集群的统一管理,达到云上云下资源和能力的共享。 降低成本
kmem泄露,导致节点内存有空余,但是无法创建新的Pod,并提示报错Cannot allocate memory。 问题根因 在反复创建应用时会创建的临时memory cgroup,但在应用删除时,内核已经删除了 cgroup (/sys/fs/cgroup/memory下对应的cgroup目录已经删除), 但在
l模式的DNAT Service。 同一个NAT网关下的多条规则可以复用同一个弹性公网IP,不同网关下的规则必须使用不同的弹性公网IP。 每个VPC支持的NAT网关数为1。 用户不能在VPC下手动添加默认路由。 VPC内的每个子网只能添加一条SNAT规则。 SNAT规则和DNAT
升级集群的流程和方法 云容器引擎(CCE)严格遵循社区一致性认证,每年发布3个Kubernetes版本,每个版本发布后提供至少24个月的维护周期,CCE保证维护周期内的Kubernetes版本的稳定运行。 为了保障您的服务权益,请您务必在维护周期结束之前升级您的Kubernete
回显: 图1 kubelet版本 若该节点的VERSION与其他节点不同,则该节点为升级过程中跳过的节点,请在合适的时间重置节点后,重试检查。 重置节点会重置所有节点标签,可能影响工作负载调度,请在重置节点前检查并保留您手动为该节点打上的标签。 父主题: 升级前检查异常问题排查
需管理和运维控制节点,可根据业务场景选择使用容器隧道网络模型或VPC网络模型,适合对性能和规模没有特殊要求的通用场景。 CCE Turbo集群:基于云原生基础设施构建的云原生2.0容器引擎服务,具备软硬协同、网络无损、安全可靠、调度智能的优势,为用户提供一站式、高性价比的全新容器
点、工作负载、Pod和事件的指标展示,全面监控集群的健康状态和负荷程度。 仪表盘:仪表盘可将不同图表汇聚到同一个屏幕上,通过不同的仪表形式来展示资源数据,例如,曲线图、数字图等,进而全面、深入地掌握监控数据。 优势 监控中心深度整合云原生基金会(CNCF)的监控项目Prometh
据应用的资源需求自动调整集群节点数量,优化资源利用率和性能。作为Kubernetes中的核心控制器,Autoscaler具备根据资源需求情况自动扩展或缩减节点的能力。当集群中的Pod因为资源不足无法调度时,Autoscaler会扩容新的节点来提供更多的资源。同时,如果扩容的节点资
支持收集CCE集群控制平面组件日志和Kubernetes审计日志,将日志从CCE控制层采集到您账号的LTS日志服务的日志流中。具体操作,请参见采集控制面组件日志和采集Kubernetes审计日志。 支持收集CCE集群Kubernetes事件,将Kubernetes事件从CCE集群内采集到您账号的LTS日志
用,获得灵活弹性的算力资源,简化对计算、网络、存储的资源管理复杂度。 适合对极致性能、资源利用率提升和全场景覆盖有更高诉求的客户。 适合具有明显的波峰波谷特征的业务负载,例如在线教育、电子商务等行业。 规格差异 网络模型 云原生网络1.0:面向性能和规模要求不高的场景。 容器隧道网络模式
更改集群节点的默认安全组 操作场景 集群在创建时可指定自定义节点安全组,方便统一管理节点的网络安全策略。对于已创建的集群,支持修改集群默认的节点安全组。 约束与限制 一个安全组关联的实例数量建议不超过1000个,否则可能引起安全组性能下降。更多关于安全组的限制请参考安全组限制。
Kubeflow部署 Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个
节点预留资源策略说明 节点的部分资源需要运行一些必要的Kubernetes系统组件和Kubernetes系统资源,使该节点可作为您的集群的一部分。 因此,您的节点资源总量与节点在Kubernetes中的可分配资源之间会存在差异。节点的规格越大,在节点上部署的容器可能会越多,所以Kubernetes自身需预留更多的资源。
GPU节点驱动版本 选择GPU节点驱动版本 CCE推荐的GPU驱动版本列表 手动更新GPU节点驱动版本 通过节点池升级节点的GPU驱动版本 父主题: GPU调度
长久解决方案: 若您的集群版本为1.19.16-r0、1.21.7-r0、1.23.5-r0、1.25.1-r0及以上,请将节点重置为最新版本的操作系统即可修复该问题。 若您的集群版本不满足要求,请将集群升级到上述指定的版本后,再将节点重置为最新版本的操作系统。 父主题: 操作系统问题说明
CCE创建的节点是否支持按需转包周期? 当前在CCE中购买节点时支持“按需计费”和“包年/包月”(按周期)计费。 约束与限制 按需节点池中的节点转成包年/包月时,需要将集群升级到v1.19.16-r40、v1.21.11-r0、v1.23.0-r0、v1.25.4-r0及以上版本。