检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
新增节点,若工作负载未设置亲和策略,pod将自动迁移至新增的可用节点,确保业务正常。 排查不可用节点问题并修复,排查修复方法请参见集群可用但节点状态为“不可用”如何解决?。 重置不可用的节点,详情请参见重置节点。 排查项二:节点资源(CPU、内存等)是否充足 0/2 nodes are available:
创建节点时执行安装前/后脚本 应用现状 在创建节点时,对于需要在节点上安装一些工具或者进行安全加固等操作时,可以使用安装前/后脚本实现。本文为您提供正确使用安装前/后脚本的指导,帮助您了解和使用安装前/后脚本。如果有进阶的安装脚本使用需求,可以将脚本存放在OBS中,避免脚本字符数
创建节点时执行安装前/后脚本 应用现状 在创建节点时,对于需要在节点上安装一些工具或者进行安全加固等操作时,可以使用安装前/后脚本实现。本文为您提供正确使用安装前/后脚本的指导,帮助您了解和使用安装前/后脚本。如果有进阶的安装脚本使用需求,可以将脚本存放在OBS中,避免脚本字符数
驱动的节点会保持现状。升级或编辑插件参数时修改驱动版本也只对未安装 NPU 驱动的节点生效。 驱动安装成功后需要重启节点才能生效,驱动安装成功确认方式请参见如何确认节点NPU驱动已安装完成。 插件卸载不会自动删除已安装的NPU驱动,如需卸载,卸载方式请参见NPU驱动卸载。 关闭:无法根据用户诉求指
启动延迟 低 高 kubelet CPU/内存占用 低 高 运行时CPU/内存占用 低 高 节点操作系统与容器引擎对应关系 v1.23及以上的VPC网络集群都支持Containerd,容器隧道网络集群从v1.23.2-r0开始支持Containerd。 表2 CCE集群节点操作系统与容器引擎对应关系
删除集群 操作场景 按需计费的集群支持直接删除,详情请参见删除按需计费的集群。 包周期的集群不能直接删除,需进行集群退订(对于未超期集群)或释放(对于已超期未续费集群),详情请参见退订/释放包周期的集群。 注意事项 删除集群不会删除集群下包周期的资源,相关资源在集群删除后将会继续计费,请妥善处理。
资源与成本规划 本文提供的成本预估费用仅供参考,资源的实际费用与用户所在区域相关,请以华为云管理控制台显示为准。 完成本实践所需的资源如下: 表1 资源和成本规划 资源 资源说明 数量 费用(元) 弹性云服务器ECS 建议选择按需计费。 虚拟机类型:通用计算增强型 节点规格:4核
CCE密钥管理(对接 DEW) 插件简介 CCE密钥管理(原名dew-provider)插件用于对接数据加密服务(Data Encryption Workshop, DEW)。该插件允许用户将存储在集群外部(即专门存储敏感信息的数据加密服务)的凭据挂载至业务Pod内,从而将敏感信
欠费说明 您在使用云服务时,系统会在订单的结算周期结束后生成账单并执行扣款。如果结算时账户余额不足,您的账户将进入欠费状态。欠费后,可能会影响云服务资源的正常运行,请及时充值。 欠费影响 华为云为客户提供充分的时间进行续费与充值,当您的包年/包月资源到期未续订或按需资源欠费时会依
使用Prometheus监控多个集群 应用场景 通常情况下,用户的集群数量不止一个,例如生产集群、测试集群、开发集群等。如果在每个集群安装Prometheus监控集群里的业务各项指标的话,很大程度上提高了维护成本和资源成本,同时数据也不方便汇聚到一块查看,这时候可以通过部署一套P
按需计费 按需计费是一种先使用再付费的计费模式,适用于资源需求灵活的用户。本文将介绍云容器引擎中购买按需计费资源的计费规则。 适用场景 按需计费适用于短期突增或不可预测的应用或服务,例如电商抢购、临时测试、科学计算。 适用计费项 使用云容器引擎CCE时,表1中的计费项支持从CCE
服务基础配置 服务名称 服务名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 0-253字符 无 创建时可修改 CCE Standard/CCE Turbo 命令空间 服务所在的命名空间 参数名 取值范围 默认值 是否允许修改 作用范围 namespace 0-63字符
集群配置概览 集群配置中心为您提供集群基础配置的概况及对应的修改入口,包含集群信息、集群配置、集群控制节点可用区和已安装插件多维度的信息概况。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“配置中心”,单击“配置概览”页签。 图1 配置概览 集群信息
基于ELB监控指标的弹性伸缩实践 应用现状 在使用工作负载弹性伸缩时,Kubernetes默认提供基于CPU/内存等资源使用率指标进行伸缩。但是在流量突发的场景下,基于CPU/内存使用率资源使用率数据会滞后于ELB流量指标,无法及时反映应用实际需求。因此,对于某些需要快速弹性扩缩
CoreDNS内存使用率超过百分之八十 描述(可选) 添加告警规则描述。 检查CoreDNS容器内存使用率是否大于80%。 告警规则(PromQL) 输入普罗查询语句。关于如何编写普罗查询语句,请参见查询示例。 本例中设置CoreDNS当内存使用率的最大值大于80%产生告警,示例如下: (sum(containe
CCE集群弹性引擎版本发布记录 表1 v1.30集群配套插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 1.30.18 v1.30 修复部分问题 1.30.1 1.30.15 v1.30 支持v1.30集群 事件增加节点池名称 1.30.1 表2 v1.29集群配套插件版本记录
Kubeflow部署 Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一
集群备份恢复 CCE备份恢复为无状态和有状态应用的备份和恢复提供了一套可靠、安全、灵活且高效的解决方案。通过遵循CCE备份恢复的全流程指导,您可以顺利地完成应用的备份和恢复。 建议在用户业务量小时执行备份和恢复操作。 方案优势 易用性:在应用备份和恢复阶段,已实现工具自动化。这些工具免安装,简单轻量且配置灵活。
internalCluster user 登录Argo服务端,用户名为admin,服务端地址及密码可从1中获取。如果ECS服务器与集群处于同一VPC下,此处节点IP可使用私网IP。 argocd login <节点IP:端口号> --username admin --password <password>
Kubernetes原生配置 为您提供典型的原生配置选项,您可以在此设置kube-apiserver、kube-controller等社区原生管理组件的配置,为您的集群在海量场景下提供最佳的云原生体验。 集群服务器配置(kube-apiserver) 容器故障迁移默认容忍周期 容