检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
组调度(Gang)满足了调度过程中“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。
性检查Pod的度量数据,计算满足HPA资源所配置的目标数值所需的副本数量,进而调整目标资源(如Deployment)的replicas字段。 想要做到自动弹性伸缩,先决条件就是能感知到各种运行数据,例如集群节点、Pod、容器的CPU、内存使用率等等。而这些数据的监控能力Kuber
表2 数据可靠性 类别 评估项目 类型 影响说明 FAQ&样例 容器数据持久化 应用Pod数据存储,根据实际需求选择合适的数据卷类型。 可靠性 节点异常无法恢复时,存在本地磁盘中的数据无法恢复,而云存储此时可以提供极高的数据可靠性。 存储管理 数据备份 对应用数据进行备份 可靠性
能要求较高的业务场景,比如:AI计算、大数据计算等。 中小规模组网:由于VPC路由网络受限于VPC路由表条目配额的限制,建议集群规模为1000节点及以下。 性能要求高:由于云原生网络2.0直接使用VPC网络构建容器网络,容器通信不需要进行隧道封装和NAT转换,所以适用于对带宽、时
Kubernetes支持Pod和集群节点的自动弹性伸缩,通过设置弹性伸缩规则,当外部条件(如CPU使用率)达到一定条件时,根据规则自动伸缩Pod和集群节点。 Prometheus与Metrics Server 想要做到自动弹性伸缩,先决条件就是能感知到各种运行数据,例如集群节点、Pod、
us指标,将导致数据无法采集,因此扩容完成重启后,该时段的监控数据将会丢失。 为什么监控中心的工作负载/节点CPU使用率超过100%? 工作负载CPU使用率是使用container_cpu_usage_seconds_total计算的,系统会定期更新CPU使用量和更新时间点。Pr
CCE产品架构 计算:全面适配华为云各类计算实例,支持虚拟机和裸机混合部署、高性价比鲲鹏实例、GPU和华为云独有的昇腾算力;支持GPU虚拟化、共享调度、资源感知的调度优化。 网络:支持对接高性能、安全可靠、多协议的独享型ELB作为业务流量入口。 存储:对接云存储,支持EVS、SFS和OBS,提供磁盘加密、快照和备份能力。
中断回收。与“按需计费”和“包年/包月”方式购买的弹性云服务器相比,在提供同等性能的前提下,竞价计费型实例可提供超低折扣,降低用云成本。 约束与限制 仅按需的虚拟机节点、节点池支持创建竞价实例。 如果创建竞价实例时同时购买了数据盘和弹性公网IP,数据盘和弹性公网IP会在竞价实例释
Ingress配置gzip数据压缩 ELB支持开启数据压缩,通过数据压缩可缩小传输文件大小,提升文件传输效率减少带宽消耗。 该功能依赖ELB能力,使用该功能前请确认当前区域是否支持。ELB已支持的区域请参见数据压缩。 配置数据压缩后,如果您在CCE控制台删除数据压缩配置或在YAML中
示的内存使用率低于HPA阈值后并没有发生缩容。 问题根因 界面上显示的容器内存使用率与HPA弹性伸缩的内存使用率在计算方式上存在差异: 界面上显示的容器内存使用率计算方式为:container_memory_rss/内存Limit container_memory_rss(即Resident
弹性伸缩概述 弹性伸缩是根据业务需求和策略,经济地自动调整弹性计算资源的管理服务。 背景介绍 随着Kubernetes已经成为云原生应用编排、管理的事实标准,越来越多的应用选择向Kubernetes迁移,用户也越来越关心在Kubernetes上应用如何快速扩容面对业务高峰,以及如何在业务低谷时快速缩容节约资源与成本。
GPU视图 GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量
Kubernetes 集群备份、迁移工具,集成了Restic工具对PV数据的备份能力,可以通过Velero工具将原集群中的K8s资源对象(如Deployment、Job、Service、ConfigMap等)和Pod挂载的持久卷数据保存备份上传至对象存储。在发生灾难或需要迁移时,目标集群可使
点池等多个维度的集群成本开销和资源使用状况,进而识别可优化的应用。 成本洞察关键能力 丰富的容器成本覆盖范围:支持成本分析的费用包括CCE集群管理费用、CCE集群关联的ECS和EVS资源费用。 基于计费账单的精准成本计算:使用真实账单进行成本分摊计算,精准统计集群成本。 灵活的成
监控中心概述 监控中心是华为云打造的新一代云原生容器运维平台,可实时监控应用及资源,采集各项指标及事件等数据以分析应用健康状态,提供全面、清晰、多维度数据可视化能力,兼容主流开源组件,并提供快捷故障定位的能力。 功能介绍 多维度数据洞察:提供基于Kubernetes原生类型的容器
适用计费项 计费项 资源类型 说明 集群 - 根据集群规模和高可用模式计费。 节点(弹性云服务器 ECS) 实例规格 包括vCPU和内存。 云硬盘 随按需计费云服务器创建的云硬盘,其计费模式也为按需计费。包括系统盘和数据盘。 弹性公网IP 通过CCE控制台创建的按需计费云服务器支
群成本开销、资源使用状况,进而提供成本优化的依据。当前支持集群维度和命名空间维度两个视角的成本洞察。 前提条件 已开通成本洞察功能 约束与限制 由于实际账单的获取存在两天时间延迟,开通成本洞察后,成本洞察成本数据会延迟2天显示。 使用成本洞察期间,需要保证云原生监控插件运行正常,
本文提供的成本预估费用仅供参考,资源的实际费用与用户所在区域相关,请以华为云管理控制台显示为准。 完成本实践所需的资源如下: 表1 资源和成本规划 资源 资源说明 数量 费用(元) 弹性云服务器ECS 建议选择按需计费。 虚拟机类型:通用计算增强型 节点规格:4核 | 8GiB 操作系统:Ubuntu
使用Service实现简单的灰度发布和蓝绿发布 使用Nginx Ingress实现灰度发布和蓝绿发布 使用ASM实现灰度发布和蓝绿发布 容器镜像迁移实践 使用docker命令将镜像迁移至SWR 使用image-migrator将镜像迁移至SWR 跨云Harbor同步镜像至华为云SWR DevOps实践
插件作为采集数据源端,接收数据的第三方Prometheus实例作为目的端。 步骤一:获取数据上报地址 Prometheus提供了Remote Write标准接口,您可以在CCE云原生监控插件中填写数据上报地址(Remote Write URL),将本地采集到的监控数据远程存储到Prometheus中。