检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
件指标 如果您需要通过Prometheus采集Master节点组件指标,可通过以下指导进行配置。 集群版本需要v1.19及以上。 在集群中需安装自建的Prometheus,您可参考Prometheus使用Helm模板进行安装。安装自建Prometheus后,还需要使用promet
执行可执行文件时Inheritable和文件的Inheritable集合的交集被添加到执行完execve后的进程的Permited集合中,出现非预期的“越权“行为。需要说明的是,这个越权并没有突破 execve 前的进程权限,仅仅是继承之前的 capabilities。 该漏洞的影响范围如下: 1. CCE
csi-provisioner监听到PV更新事件,但由于PV上有deletionTimestamp,csi-provisioner认为不需要删除底层卷,于是跳过删底层卷的流程,直接开始删除PV,这样PVC和PV被成功删除,但是底层卷残留。关于此问题的逻辑代码请参见controller。
对于没有IAM权限的用户,给其他用户和用户组配置权限时,无法选择用户和用户组,此时支持填写用户ID或用户组ID进行配置。 图1 配置命名空间权限 其中自定义权限可以根据需要自定义,选择自定义权限后,在自定义权限一行右侧单击新建自定义权限,在弹出的窗口中填写名称并选择规则。创建完成后,在添加权限的自定义权限下拉框中可以选择。
metadata.uid}{"\n"}' 命令中的{pod name}和{namespace}是Pod名称及其所在的命名空间。 {容器id}需要是完整的容器ID,可在容器运行的节点上通过以下命令获取: docker节点池:命令中的{pod name}是Pod名称。 docker ps
自定义亲和策略:填写期望插件部署的节点标签实现更灵活的调度策略,若不填写将根据集群默认调度策略进行随机调度。 配置建议: 使用默认配置 同时设置多条自定义亲和策略时,需要保证集群中存在同时满足所有亲和策略的节点,否则插件实例将无法运行。 容忍策略 节点异常时等待指定时间再驱逐插件volcano容器实例,提高插件可用性
volcano重启的问题。 1.9.1 v1.19.16 v1.21 v1.23 v1.25 修复networkresource插件计数pipeline pod占用subeni问题 修复binpack插件对资源不足节点打分问题 修复对结束状态未知的Pod的资源的处理 优化事件输出
Deployment。 将来,一旦实现了自动回滚,Deployment 控制器将在探测到这样的条件时立即回滚 Deployment。 如果指定,则此字段值需要大于 .spec.minReadySeconds 取值。 - 缩容时间窗(terminationGracePeriodSeconds) 优
关于极速文件存储的性能参数,请参考文件系统类型。 使用场景 极速文件存储支持以下挂载方式: 通过静态存储卷使用已有极速文件存储:即静态创建的方式,需要先使用已有的文件存储创建PV,然后通过PVC在工作负载中挂载存储。 通过StorageClass动态创建SFS Turbo子目录:SFS
本地持久卷不支持通过静态PV使用,即不支持先手动创建PV然后通过PVC在工作负载中挂载的方式使用。 约束与限制 本地持久卷仅在集群版本 >= v1.21.2-r0 时支持,且需要everest插件版本>=2.1.23,推荐使用>=2.1.23版本。 移除节点、删除节点、重置节点和缩容节点会导致与节点关联的本地持久存
如果选择安装grafana组件,也可能出现同样的问题。 图1 插件实例调度失败 问题原因 当出现以上报错内容,说明集群中已存在prometheus实例需要的存储卷,但该存储卷对应的云硬盘未满足与节点同一可用区的要求,导致调度失败。这可能是由于集群并非首次安装kube-prometheus-stack插件引起。
com/ascend-310指定申请NPU的数量。 使用huawei.com/ascend-310参数指定NPU数量时,requests和limits值需要保持一致。 指定huawei.com/ascend-310后,在调度时不会将负载调度到没有NPU的节点。如果缺乏NPU资源,会报类似“0/2
GPU虚拟化功能仅支持470.57.02、510.47.03、535.54.03版本的GPU驱动。 运行时 仅支持containerd 插件 集群中需要同时安装以下插件: Volcano调度器插件:1.10.5及以上版本 CCE AI套件(NVIDIA GPU)插件:2.0.5及以上版本 约束与限制
节点成本按照CPU、内存进行成本拆分,暂不支持GPU、NPU等异构资源的拆分。如GPU类型的节点在拆分时,会出现CPU核时单价偏高。 开通成本洞察后需要等待2天时间,才能显示分析结果。 成本洞察以天为粒度呈现成本分析结果。 父主题: 成本洞察
pod-eviction-timeout:即当节点宕机时间超过一定的时间间隔后,开始驱逐宕机节点上的Pod,默认为5min。 node-eviction-rate:每秒需要排空的节点数量,默认为0.1,即每10s从一个节点驱逐Pod。 secondary-node-eviction-rate:第二档的排空节点
按需计费资源 对于按需计费模式的资源,例如按需计费的集群、按需计费的节点(弹性云服务器)等,若不再使用这些资源且需停止计费,请删除相应资源。需要注意的是: 集群休眠后,集群管理费用不再收取,但集群中包含的其他云服务计费资源(例如云硬盘、带宽等)不受集群休眠影响,仍然按原有的计费方式进行计费。
器,最终导致只有部分后端服务器更新为错误配置,其余后端服务器仍保持原先配置。 解决方法:在后端服务器配额已满的情况下,更新Service时需要配置正确的健康检查协议、端口,查看健康检查是否成功。 父主题: 网络异常问题排查
排查项三:集群Secret落盘加密使用的KMS密钥是否有效 问题现象 当出现集群不可用,您可以查看集群事件确认异常原因。 当集群事件中存在“KMS密钥状态异常”时,您需要确认该集群对应的使用的密钥状态是否被设置为“禁用”或“计划删除”。 解决方案 登录数据加密服务 DEW控制台。 在自定义密钥列表中,找到集群使用的KMS密钥。
行的业务迁移到其它可用节点,然后再响应云服务器事件,避免云服务器事件处理过程对业务造成影响。 操作步骤 前置处理 在响应云服务器事件前,您需要将业务迁移至其它可用节点,然后隔离待处理的节点。 您可以使用节点排水迁移节点上运行的Pod并隔离节点;您也可以手动迁移节点上运行的Pod后
TPS等。 主题是消息发布或客户端订阅通知的特定事件类型。它作为发送消息和订阅通知的信道,为发布者和订阅者提供一个可以相互交流的通道。 您需要创建一个主题,并订阅。具体方法请参见创建主题和订阅主题。 订阅主题后,请前往您的订阅终端(邮件或短信)手动确认添加订阅,消息通知才可生效。