检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
max-min fairness算法的最大问题是认为资源是单一的,但是现实情况中资源却不是单一的,例如CPU、Memory、GPU等资源在分配时都需要考虑。这个时候DRF应运而生,简单来说DRF就是 max-min fairness 算法的泛化版本,可以支持多种类型资源的公平分配, 即每个用户的主资源满足
配置项创建完成后,您还可以执行表3中的操作。 表3 其他操作 操作 说明 编辑YAML 单击配置项名称后的“编辑YAML”,可编辑当前配置项的YAML文件。 更新配置 选择需要更新的配置项名称,单击“更新”。 根据表1更改信息。 单击“确定”。 删除配置 选择要删除的配置项,单击“删除”。 根据系统提示删除配置。
盘加密。 禁止集群删除:防止通过控制台或API误删除集群,开启后将禁止删除或退订集群。 集群控制节点可用区 您可查看集群控制节点数量,如果需要查看控制节点资源使用率等数据,请单击右上角“查看监控”,前往监控中心页面查看。 已安装插件 您可查看集群中已安装的插件,当集群中存在可以升
CCE集群Master成本+系统命名空间成本)组成。其中未被分配空闲成本以及集群管理成本,被定义为公共成本。当部门按照命名空间进行设置时,需要关联业务命名空间,并设置公共成本的分摊比例。 图2 部门成本计算示例 示例中,Cluster1是部门A的专属集群,Cluster2是部门C
支持GPU资源调度 使用该能力时,集群中需要同时安装CCE AI套件(NVIDIA GPU)。启用该能力后,可使用GPU资源运行AI训练作业,调度器提供GPU整卡调度和GPU共享调度能力,提高GPU资源利用率。 支持NPU资源调度 使用该能力时,集群中需要同时安装CCE AI套件(Ascend
v1.27 v1.28 v1.29 适配CCE v1.29集群 支持GPSSD2和ESSD2类型磁盘 支持DSS专属分布式存储,同时集群版本需要满足v1.21.15-r0、v1.23.14-r0、v1.25.9-r0、v1.27.6-r0、v1.28.4-r0及以上 2.3.23 v1
10-r0及以上 v1.28集群:v1.28.8-r0及以上 v1.29集群:v1.29.4-r0及以上 v1.30集群:v1.30.1-r0及以上 您需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 自定义EIP仅支持Service更新场景下配置,且Ser
缩容并发数只针对完全空闲节点,完全空闲节点可实现并发缩容。非完全空闲节点则只能逐个缩容。 节点在缩容的时候,若节点上的Pod不需要驱逐(DaemonSet的Pod认为不需要驱逐),则认为该节点为完全空闲节点,否则认为该节点为非完全空闲。 检查周期:节点被判定不可缩容后能再次启动检查的时间间隔,默认5min。
Prometheus实例,需要开通监控中心。当您的集群未安装插件或者在安装插件时未对接AOM Prometheus实例,告警中心将不会创建指标类告警规则。开通监控中心请参考开通监控中心。 表1中使用problem_gauge指标的指标类告警规则依赖CCE节点故障检测插件(NPD)。如需要使用相关的
如下: 若您自建的Prometheus同样部署在K8s集群中,可进入Prometheus容器中查看。若您自建的Prometheus部署在虚拟机上,则可跳过本步骤。 kubectl exec -ti -n monitoring prometheus-server-0 -- sh 命令中变量可根据实际情况进行替换:
在资源消耗Top统计中,CCE服务会将CPU使用率和内存使用率排名前五的节点、无状态负载、有状态负载和Pod纳入统计范围,以帮助您识别资源消耗“大户”。如果您需要查看全部数据,可前往节点、工作负载或Pod页面。 图3 资源消耗Top统计 监控名词解释: CPU使用率 节点CPU使用率 = 节点的CPU非空闲时间所占的平均比例。
创建pod时,在pod的annotation中需增加kubernetes.io/extend-path-mode。 创建deployment时,需要在template中的annotation增加kubernetes.io/extend-path-mode。 如下为创建pod的yaml示
Pod带宽限制不支持HostNetwork类型Pod。 操作步骤 编辑工作负载yaml文件。 vi deployment.yaml 根据需要在spec.template.metadata.annotations中设置工作负载实例的网络带宽,限制容器的网络流量,网络带宽限制字段详解请参见表1。
集群。 华为云CCE容器服务: CCE容器服务创建的Kubernetes集群属于单租户专属,不存在跨租户共享,影响范围较小,对于多用户场景需要关注。 当前CCE采用华为优化的Docker容器,其中RUNC采用静态编译,目前公开披露的攻击方法无法成功入侵。 华为云CCI容器实例服务:
查看alertmanager-alertmanager有状态负载的yaml可以看到告警数据存放在Pod磁盘中,如果Pod重启,告警数据就会消失。如需要持久化,请规划一个PVC,并修改alertmanager的CR资源,挂载PVC。 父主题: 云原生观测最佳实践
使用说明: vpc_id,vip_subnet_cidr_id,ipv6_vip_virsubnet_id不能同时为空,且需要在同一个vpc下。 需要对应的子网开启IPv6。 负载均衡后端所在子网。 负载均衡器的下联面子网 参数名 取值范围 默认值 是否允许修改 作用范围 elb_virsubnet_ids
标节点,并单击左上方“标签与污点管理”。 在弹出的窗口中,在“批量操作”下方单击“新增批量操作”,然后选择“添加/更新”或“删除”。 填写需要增加/删除标签的“键”和“值”,单击“确定”。 例如,填写的键为“deploy_qa”,值为“true”,就可以从逻辑概念表示该节点是用来部署QA(测试)环境使用。
使用说明: vpc_id,vip_subnet_cidr_id,ipv6_vip_virsubnet_id不能同时为空,且需要在同一个vpc下。 需要对应的子网开启IPv6。 负载均衡后端所在子网。 负载均衡器的下联面子网 参数名 取值范围 默认值 是否允许修改 作用范围 elb_virsubnet_ids
如您还有使用默认容器网络配置的Pod极速弹性述求,请结合调度,合理规划节点池级别的容器网卡动态预热配置。 已开启固定IP的工作负载,如果需要关联新的容器网络配置,Pod重建时,固定IP功能会失效。请删除工作负载并释放已经固定的IP,然后重新创建工作负载。 如需删除创建的自定义容
云原生监控插件,或者关闭AOM对接,即可以停止使用该功能。 监控中心为什么没有展示自定义指标? 监控中心暂不支持用户自定义指标的展示,如果需要查看自定义指标,可以到AOM服务监控中心的仪表盘配置自定义指标的仪表盘。详情请参见创建仪表盘。 为什么云原生监控插件开启本地数据存储时,重