检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
部分存储功能异常。 本插件仅支持在v1.13及以下版本的集群中安装,v1.15及以上版本的集群在创建时默认安装everest插件。 在v1.13及以下版本的集群中,当存储功能有升级或者BUG修复时,用户无需升级集群或新建集群来升级存储功能,仅需安装或升级storage-driver插件。
使用Volcano调度工作负载 Volcano是一个基于Kubernetes的批处理平台,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,通过接入AI、大数据、基因、渲染等诸多行业计算框架服务终端用户,并针对计算型应用提供了作业调度、作业管理、队列管理等多项功能。
00节点等。集群规模会影响控制节点规格,集群规模越大,控制节点的规格越高。 集群规模可以在创建集群后变更,支持往大规模变更,但不支持往小规模变更,具体请参见变更集群规格。 集群生命周期 表1 集群状态说明 状态 说明 创建中 集群正在创建,正在申请云资源 运行中 集群正常运行 休眠中
已创建Kubernetes集群,且集群版本满足以下要求: v1.23集群:v1.23.14-r0及以上版本 v1.25集群:v1.25.9-r0及以上版本 v1.27集群:v1.27.6-r0及以上版本 v1.28集群:v1.28.4-r0及以上版本 其他更高版本的集群 如果您需要通过命
希方法等 ClusterIP连通性 集群内部ClusterIP地址无法ping通 集群内部ClusterIP地址可以正常ping通 说明: 由于社区安全加固,v1.27及以上版本的集群中ClusterIP地址无法ping通。 额外限制 当集群中超过3000个Service时,可能会出现网络延迟的情况。
在“集群管理”页面右上角单击“购买集群”。 在页面最下方,展开“高级配置”,找到“Secret落盘加密”,开启该特性。 开启后可以在“自定义密钥”中选择您创建的自定义KMS密钥或默认密钥。 参考购买Standard/Turbo集群填写其他配置,并完成后续集群创建步骤。 集群创建成功后,单击集群名称进入集
登录CCE控制台,单击集群名称进入集群控制台。 在集群控制台左侧导航栏中选择“配置中心”。 单击“配置概览”页签,在“集群配置”中找到“禁止集群删除”,单击“开启”。开启后将禁止用户从CCE侧删除或退订集群。 图1 禁止集群删除 父主题: 管理集群
集群监控 当您想观测整个集群的资源使用情况和健康度时,可以在“监控中心 > 集群”页面查看,该页面提供了单个集群的监控情况,包含集群健康度、健康概况、资源消耗Top统计和数据面监控多维度的信息概况。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“集群”页签。
目标集群资源规划 CCE支持对集群资源进行自定义选择,以满足您的多种业务需求。表1中列举了集群的主要性能参数,并给出了本示例的规划值,您可根据业务的实际需求大小进行设置,建议与原集群性能配置保持相对一致。 集群创建成功后,表1中带“*”号的资源参数将不可更改,请谨慎选择。 表1 CCE集群规划
集群运行 当集群状态为“不可用”时,如何排查解决? CCE集群如何重置或重装? 如何确认已创建的集群是否为多控制节点模式? 是否可以直接连接CCE集群的控制节点? CCE集群删除之后相关数据能否再次找回? 为什么CCE集群界面的节点磁盘监控看起来不准确? 如何修改CCE集群名称?
段时间再次唤醒。 集群唤醒后,需要3~5分钟进行数据初始化。建议您等待集群稳定运行后再进行业务下发。 集群休眠 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到需要休眠的集群,查看集群的更多操作,并单击“休眠集群”。 图1 休眠集群 在弹出的集群休眠提示框中,查看风险提示,单击“是”,等待集群完成休眠。
CCE集群备份恢复(停止维护) 插件简介 CCE集群备份恢复插件(原名e-backup)提供集群备份恢复能力。它将用户应用数据和业务数据备份到OBS桶中,并提供数据的本地备份和远程备份的能力。 使用约束 备份/恢复过程中,用户要保证集群处于稳态,不要触发增删改等变更行为,以免出现备份/恢复失败或不完整;
单击“下一步:规格确认”,显示集群资源清单,确认无误后,单击“提交”。 等待集群创建成功,创建集群预计需要5-10分钟左右,请耐心等待。 创建成功后在集群管理下会显示一个运行中的集群,且集群节点数量为0。 图1 集群创建成功 步骤三:在集群中创建节点池和节点 单击新建的集群名称进入集群控制台。 在
景中跨云、跨集群的统一调度,以及不同在线应用、离线任务的统一调度。 首先,Volcano通过静态分析,获取应用的静态特征,如:CPU、内存、存储、GPU等资源的需求,应用间亲和性、区域亲和性、云平台亲和性等。 接着,Volcano对接监控系统,获取不同云平台资源、集群资源的动态数
集群 CCE集群选型建议 通过CCE搭建IPv4/IPv6双栈集群 制作CCE节点自定义镜像 创建节点时执行安装前/后脚本 创建节点时使用OBS桶实现自定义脚本注入 通过kubectl对接多个集群 选择合适的节点数据盘大小 集群视角的成本可视化最佳实践 使用共享VPC创建CCE Turbo集群
使用合适的集群配置 在部署集群之前,您需要评估集群应用所需的资源需求,选择合适的集群类型、节点实例类型、集群付费模式等,从而以更低的成本构建集群。 集群类型选择 CCE提供了不同种类的集群类型,需要您结合自身业务特点,选择适合的集群类型。各种集群类型差异如下: 类型对比 CCE Standard
在弹出的页面中,根据实际需求选择新的“集群规模”。 单击“下一步”进行规格确认,并单击“确定”。 您可以在控制台右上角单击“操作记录”查看集群变更记录。状态从“执行中”变为“成功”,表示集群规格变更成功。 当集群规格变更为1000节点及以上时,为了保证集群性能,集群部分参数值会根据集群的规格进行自动调整,详情请参见修改CCE集群配置。
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
如何扩容容器的存储空间? 使用场景 容器默认大小为10G,当容器中产生数据较多时,容易导致容器存储空间不足,可以通过此方法来扩容。 解决方案 登录CCE控制台,单击集群列表中的集群名称。 在左侧导航栏中选择“节点管理”。 切换至“节点”页签,选择集群中的节点,单击操作列中的“更多 > 重置节点”。
工作负载异常:实例无法写入数据 Pod事件 Pod所在的节点文件系统损坏,新建的Pod无法成功在/var/lib/kubelet/device-plugins/.xxxxx写入数据,Pod通常会出现以下类似事件: Message: Pod Update Plugin resources