检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
舰队开通联邦校验失败怎么办? 问题背景 舰队开通集群联邦功能后,UCS服务会把当前舰队已存在的集群及新加入到舰队的集群自动添加到联邦中。添加过程中,舰队会对集群的网络状态、集群版本、clusterrole、clusterrolebinding等项目做校验。如果添加过程中校验存在问
EIP的方式提供了服务的访问入口。 故障场景构造 构造单地域故障的场景,以Region1故障为例,执行以下操作,构造单地域故障: 休眠Region1的cce-cluster01集群,并关机集群下的节点。 解绑Region1的ELB实例的EIP1。 容灾能力验证 在DNS的域名解析
在每天的该时点执行。 每周:在每周具体的某一天内的某一时间执行一次,可具体到分钟。设置完成后,策略将会在每周的该天该时点执行。 每月:在每月具体的某一天内的某一时间执行一次,可具体到分钟。设置完成后,策略将会在每月的该天该时点执行。 每年:在每年具体的某月某天内的某一时间执行一次
Nvidia驱动:您可使用CCE提供的驱动地址或手动填写自定义Nvidia驱动的地址,集群下全部GPU节点将使用相同的驱动。 GPU虚拟化功能仅支持470.57.02、510.47.03、535.54.03版本的GPU驱动。 建议您使用CCE提供的驱动地址,以满足驱动版本的要求。 如果下载链接为
eap_alloc_bytes 用于监控进程运行时堆内存分配的指标。它表示进程在运行时分配的堆内存的总字节数。 Gauge otelcol_process_runtime_total_alloc_bytes 用于衡量进程在运行时分配的总字节数 Counter otelcol_pr
修复ioaware插件在某些极端场景下结果不符合预期的问题 支持混合集群 1.2.3 /v1.15.*|v1.17.*|v1.19.*/ 修复因为精度不够引发的训练任务OOM的问题 修复CCE1.15以上版本GPU调度的问题,暂不支持任务分发时的CCE版本滚动升级 修复特定场景下队列状态不明的问题 修复特定场景下作业挂载PVC
host必须是DNS名称,不可以是IP地址。 service中所指定的后端服务必须是存在的、且输入的相关信息(如端口)是正确的,否则会导致访问服务失败。若您已经创建了参数信息错误的MCI对象,请参考4中的命令更新该MCI对象。 paths中,配置的高级转发策略(karmada.io/elb.conditions
与其他云服务的关系 华为云UCS为用户提供一个统一的集群服务管理平台,与周边服务的依赖关系如图1所示。 图1 UCS与其他服务关系 表1 UCS与其他服务的关系 服务名称 UCS与其他服务的关系 主要交互功能 云容器引擎 CCE UCS支持接管云容器引擎中的CCE集群、CCE T
UCS的权限管理,可以实现精细化授权的目标。 图1 组织结构示意图 行管团队:负责管理公司所有资源的团队。 开发团队:负责业务开发的团队。 运维团队:负责查看并监控所有资源使用情况的团队。 访客:预留的只读权限团队,指那些仅具有查看资源权限的人员。 通过表1,给公司不同的职能团队
文为入口网关的目标服务配置灰度发布策略。 东西向网格内部服务间灰度发布,使用的是Istio的VirtualService/DestinationRule模型,依赖DestinationRulesubsets 来定义服务的版本。 南北向入口网关的目标服务灰度发布,使用的是Kubernetes
NPU设备的管理插件。 安装本插件后,可支持使用NPU的节点,实现快速高效地处理推理和图像识别等工作。 前置条件 安装huawei-npu的节点需要添加标签“accelerator/huawei-npu”,标签值可为空。 使用npu插件在Ascend Snt9设备上运行,需先安装volcano插件。
那么节点上CPU和内存的资源使用情况如下: 节点CPU可分配量=4Core-(实例1申请的1Core+实例2申请的1Core)=2Core 节点内存可分配量=8GB-(实例1申请的2GB+实例2申请的2GB)=4GB 因此节点还剩余2Core 4GB的资源可供下一个新增的实例使用。 父主题:
选择一个容器舰队或者未加入舰队的集群。 图1 选择舰队或未加入舰队的集群 单击“容器洞察 > 集群总览”页签查看已开启监控的集群,选择待升级插件的集群,单击操作列的“查看详情”,进入概览页。 页面右上角会展示kube-prometheus-stack插件的版本,当安装的插件版本非最新版本时,可选择升级插件,体验插件的最新功能。
单击后方“选择镜像”,选择容器使用的镜像。 我的镜像:当前区域下华为云镜像仓库中的镜像。若无可用的镜像,可单击“上传镜像”进行上传。 镜像中心:开源镜像仓库中的官方镜像。 共享镜像:由他人账号共享的私有镜像,详情请参见共享私有镜像。 镜像版本 选择需要部署的镜像版本。 更新策略 镜像更新/
问题背景 升级集群联邦前,UCS会对联邦运行状态、集群运行状态、集群接入状态三方面进行检查,尽可能避免升级失败。如有检查异常项,请先参考本章节内容排查与修复问题。问题修复后,可以尝试再次升级集群联邦。 升级联邦前,请您对联邦运行状态、集群运行状态、集群接入状态三方面进行检查,以避免升级失败。
要额外配置。 集群权重的计算方法 计算方法 对于基于集群权重的调度策略,在您设置各个集群的权重后,相应的集群分配Pod数的计算方法如下所述。 按照权重计算各个集群的分配Pod数(向下取整)。 分配Pod数 = ( Pod总数 * 该集群权重 ) / 权重的总和 计算剩余Pod数。
UCS支持为节点打上不同的标签,以定义节点的不同属性,通过这些标签,您可以快速地了解各个节点的特点。 污点(Taint)能够使节点排斥某些特定的Pod,从而避免将Pod调度到该节点上,通过添加污点,您可以实现各节点负载的合理分配。 节点标签使用场景 节点标签的主要使用场景有两类。 节点分类:通过添加标签对节点进行分类。
rics-server下的升级按钮对插件进行升级。 如果升级按钮处于冻结状态,则说明当前插件版本是最新的版本,不需要进行升级操作。 升级“metrics-server”插件时,会替换原先节点上的旧版本的“metrics-server”插件,安装最新版本的“metrics-server”插件以实现功能的快速升级。
当前MCS仅支持版本为1.21及以上的CCE Turbo集群、网络模型为underlay的其他Kubernetes集群创建。 请提前做好网络规划,保证成员集群间容器网络不冲突,确保ELB实例与容器Pod IP网络可达。若MCS的ELB实例与集群处于不同VPC内,请提前打通VPC间的网络。 准备工作
升级策略:指定守护进程集的升级方式,包括整体替换升级和逐步滚动升级,详细参数说明请参见配置工作负载升级策略。 滚动升级:滚动升级将逐步用新版本的实例替换旧版本的实例,升级的过程中,业务流量会同时负载均衡分布到新的和旧的实例上,因此业务不会中断。 替换升级:守护进程集的替换升级,需要手动