检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在使用GPU/NPU节点时,可以为其添加污点,并通过工作负载容忍度设置,避免非GPU/NPU工作负载调度到GPU/NPU节点上。 GPU/NPU工作负载:添加指定污点的容忍度,可以调度至GPU/NPU节点。 普通工作负载:未添加指定污点的容忍度,无法调度至GPU/NPU节点。 操作步骤如下:
配置建议: 无特殊需求建议保持默认配置 并发数量设置过小可能导致管理器处理响应慢,设置过大会对集群管控面造成压力,产生过载风险 Pod水平伸缩容忍度 此值为目标值与实际值的比值与 1.0 的差值。只有超过此标志所设的阈值时, HPA 才会考虑执行缩放操作 参数名 取值范围 默认值 是否允许修改
采集容器日志。 CCE 节点故障检测 可选插件。勾选后自动安装CCE节点故障检测插件,安装后可为集群提供节点故障检测、隔离能力,帮助您及时识别节点问题。 步骤四:插件配置 单击“下一步:插件配置”,配置插件。 基础功能 参数 说明 CCE容器网络插件 (Yangtse CNI) 不支持配置。
更有针对性,更加及时。 本方案的关键点是获取ELB的指标数据并上报到Prometheus,再将Prometheus中的数据转换成HPA能够识别的metric数据,然后HPA根据metric数据进行弹性伸缩。 基于ELB监控指标的弹性伸缩具体实施方案如下所示: 开发一个Prometheus
d、Service、Deployment等)上的键值对。标签的主要作用是为这些对象提供额外的、语义化的元数据,以便于用户和系统能够更容易地识别、组织和管理资源。 标签选择器(LabelSelector) 在Kubernetes中,标签选择器是一种强大的机制,极大地简化了资源管理和
kubeStateMetrics (负载名称:kube-state-metrics) 将Prometheus的metrics数据格式转换成K8s API接口能识别的格式。kube-state-metrics组件在默认配置下,不采集K8s资源的所有labels和annotation。如需采集,请参考采
everest-csi-controller通过端口3225暴露Prometheus metrics指标。您可以自建Prometheus采集器识别并通过http://{{everest-csi-controllerPodIP}}:3225/metrics路径获取everest-csi-controller相关指标。
是否使用包周期集群删除参数预置模式(仅对包周期集群生效)。 使用该参数,集群不执行真正的删除,仅将本次请求的全部query参数都预置到集群数据库中,用于包周期集群退订时识别用户要删除的资源。 允许重复执行,覆盖预置的删除参数。 约束限制: 需要和其他删除选项参数一起使用,未指定的参数,则使用默认值 取值范围:
关于节点压力驱逐详情请参考节点压力驱逐。 须知: 驱逐配置项相关配置请谨慎修改,不合理的配置可能会导致节点频繁触发驱逐或节点已过载但未触发驱逐。 kubelet可识别以下两个特定的文件系统标识符: nodefs:节点的主要文件系统,用于本地磁盘卷、不受内存支持的 emptyDir 卷、日志存储等。 例如,nodefs
name: default-secret terminationGracePeriodSeconds: 60 配置容忍度(Toleration) 容忍度可以允许Pod在某些条件下被调度到节点上,即使这些节点上有污点(Taints)存在。比如,对于一个与节点本地状态有着深度绑定的应用而言,
显卡上容器显存使用总量 GPU卡-算力使用率 百分比 每张GPU卡的算力使用率 计算公式:显卡上容器算力使用总量/显卡的算力总量 GPU卡-温度 摄氏度 每张GPU卡的温度 GPU-显存频率 赫兹 每张GPU卡的显存频率 GPU卡-PCle带宽 字节/秒 每张GPU卡的PCle带宽 指标清单
io/ingress.class: "nginx"。如果集群中安装了多套NGINX Ingress控制器,需将nginx替换为自定义的控制器名称,用于识别Ingress对接的控制器实例。 独享型ELB规格必须支持网络型(TCP/UDP),且网络类型必须支持私网(有私有IP地址)。 运行Nginx
使用场景 - 面向有云原生数字化转型诉求的用户,期望通过容器集群管理应用,获得灵活弹性的算力资源,简化对计算、网络、存储的资源管理复杂度。 适合对极致性能、资源利用率提升和全场景覆盖有更高诉求的客户。 适合具有明显的波峰波谷特征的业务负载,例如在线教育、电子商务等行业。 规格差异
待纳管节点规格要求:CPU必须2核及以上,内存必须4GiB及以上,网卡有且仅能有一个。 如果使用了企业项目,则待纳管节点需要和集群在同一企业项目下,不然在纳管时会识别不到资源,导致无法纳管。从v1.21.15-r0、v1.23.14-r0、v1.25.9-r0、v1.27.6-r0、v1.28.4-r0
Pod 可以运行的节点,并简化配置。 开启/关闭 Pod容忍度限制插件 enable-admission-plugin-pod-toleration-restriction Pod容忍度限制插件允许通过命名空间设置 Pod 的容忍度的默认值和限制,为集群管理者提供了对 Pod 调度的精细控制,以保护关键资源。
4-r0及以上版本的集群支持该参数。 默认:开启 Pod容忍度限制插件 enable-admission-plugin-pod-toleration-restriction Pod容忍度限制插件允许通过命名空间设置Pod的容忍度的默认值和限制,为集群管理者提供了对Pod调度的精细控制,以保护关键资源。
见创建单个迁移任务。完成迁移后,可参考对接已有对象存储挂载到应用实例。 目前对象存储迁移服务OMS支持亚马逊云(中国)、阿里云、微软云、百度云、华为云、金山云、优刻得、青云、七牛云、腾讯云平台的对象存储数据迁移到华为云对象存储服务OBS。 父主题: 实施步骤
排查项二:是否在实例上设置了tolerations 通过kubectl工具或单击对应工作负载后的“更多 > 编辑YAML”,检查工作负载上是不是设置了容忍度,具体请参见污点和容忍度。 排查项三:是否满足停止驱逐实例的条件 若属于小规格的集群(集群节点数小于50个节点),如果故障的节点大于总节点数的55%,实
使用场景 - 面向有云原生数字化转型诉求的用户,期望通过容器集群管理应用,获得灵活弹性的算力资源,简化对计算、网络、存储的资源管理复杂度。 适合对极致性能、资源利用率提升和全场景覆盖有更高诉求的客户。 适合具有明显的波峰波谷特征的业务负载,例如在线教育、电子商务等行业。 规格差异
在多个不同的集群中,使得计算资源无法共享,计算资源碎片数量增加。 节点规格没有跟随应用迭代而变化,资源分配率低:初期节点规格与应用规格匹配度较好,资源分配率较高;随着应用版本迭代,应用申请资源发生变化,与节点规格比例差异较大,使节点分配率降低,计算资源碎片数量增加。 业务“潮汐”