检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Pod拓扑分布约束中matchLabelKeys字段进入Beta阶段 matchLabelKeys是一个Pod标签键的列表,用于选择需要计算分布方式的Pod集合。使用matchLabelKeys字段,您无需在变更Pod修订版本时更新pod.spec。控制器或Operator只需要将不同修订版的标签键设为不同的值。调
Pod拓扑分布约束中matchLabelKeys字段进入Beta阶段 matchLabelKeys是一个Pod标签键的列表,用于选择需要计算分布方式的Pod集合。使用matchLabelKeys字段,您无需在变更Pod修订版本时更新pod.spec。控制器或Operator只需要将不同修订版的标签键设为不同的值。调
登录CCE控制台,单击集群名称进入集群。 在左侧列表中选择“容器存储”,切换至“存储卷”页签,单击PVC(名为pvc-prometheus-server-0)对应的卷名称跳转至云硬盘详情页面。 图2 存储卷 在基本信息中查看云硬盘的可用区。 图3 云硬盘详情 在CCE控制台左侧列表中选择“节点管理”,单击“创建节点”,创建一个该可用区的节点。
支持的节点类型 仅按需 仅包年/包月 同时支持按需和包年/包月 扩容节点方式 更新节点池配置中的节点数量 更新节点池配置中的节点数量 扩缩容节点池 缩容节点方式 更新节点池配置中的节点数量 删除节点/移除节点 更新节点池配置中的节点数量 退订节点/移除节点 按需节点:扩缩容 包周期节点:退订节点/移除节点
pvc-example.yaml 命令中的yaml名称是示例,请以实际步骤2和步骤3创建的pv和pvc的yaml名字为准。 进入应用更新升级界面:更新升级 - 高级设置 - 数据存储 - 云存储。 卸载老存储,同时添加CSI格式的PVC的云存储,容器内挂载路径和以前保持一致,实现存储迁移。
pvc-example.yaml 命令中的yaml名称是示例,请以实际步骤2和步骤3创建的pv和pvc的yaml名字为准。 进入应用更新升级界面:更新升级 - 高级设置 - 数据存储 - 云存储。 卸载老存储,同时添加CSI格式的PVC的云存储,容器内挂载路径和以前保持一致,实现存储迁移。
GPU/NPU Pod重建风险检查异常处理 检查项内容 检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。 解决方案 请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重建带来的影响; 如需帮助,请您提交工单联系运维人员获取支持。
Master节点SSH连通性检查异常处理 检查项内容 该检查通过尝试建立SSH连接,检查CCE是否能通过SSH方式连接至您的Master节点。 解决方案 SSH连通性检查可能有较低概率因为网络波动检查失败,请您优先重试升级前检查; 若重试检查仍无法通过检查,请您提交工单,联系技术支持人员排查。
CCE节点故障检测插件(npd)中已包含节点时间同步检查项,您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。 问题根因 EulerOS和CentOS类型的节点存在由NTP引起的已知问题,其他类型的节点不涉及该问题。 上述问题在v1.19.16-r7、v1.21.9-r10、v1.23.7-r10版本的集群中被修复。
节点NetworkManager检查异常处理 检查项内容 检查节点上的NetworkManager状态是否正常。 解决方案 请登录该节点,执行systemctl is-active NetworkManager命令查询NetworkManager服务运行状态。若回显状态异常,请执行systemctl
如何避免非GPU/NPU负载调度到GPU/NPU节点? 问题现象 当集群中存在GPU/NPU节点和普通节点混合使用的场景时,普通工作负载也可以调度到GPU/NPU节点上,可能出现GPU/NPU资源未充分利用的情况。 问题原因 由于GPU/NPU节点同样提供CPU、内存资源,在一般
%,但界面上显示的内存使用率低于HPA阈值后并没有发生缩容。 问题根因 界面上显示的容器内存使用率与HPA弹性伸缩的内存使用率在计算方式上存在差异: 界面上显示的容器内存使用率计算方式为:container_memory_rss/内存Limit container_memory_rss(即Resident
取值范围 默认值 是否允许修改 作用范围 availability-zone 优先模式/强制模式 优先模式 允许 CCE Standard/CCE Turbo 配置建议: 优先模式 节点亲和 用户支持指定volcano插件的节点亲和调度策略 参数名 取值范围 默认值 是否允许修改 作用范围
/api/v3/projects/{project_id}/cluster/{cluster_id}/log-configs 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。 约束限制:
In:亲和/反亲和对象的标签在标签值列表(values字段)中。 NotIn:亲和/反亲和对象的标签不在标签值列表(values字段)中。 Exists:亲和/反亲和对象存在指定标签名。 DoesNotExist:亲和/反亲和对象不存在指定标签名。 Gt:调度节点的标签值大于列表值 (字符串比较)。
targetPort: 80 selector: app: nginx type: LoadBalancer 表1 annotation关键参数说明 参数 是否必填 参数类型 描述 kubernetes.io/elb.id 是 String ELB的ID,仅支持使用已有ELB实例。
object 升级前检查任务状态 表3 PrecheckTaskMetadata 参数 参数类型 描述 uid String 任务ID creationTimestamp String 任务创建时间 updateTimestamp String 任务更新时间 表4 PrecheckCluserResponseSpec
套关系见查询AddonTemplates列表 取值范围: 不涉及 values 否 Map<String,Object> 参数解释: 插件参数列表,Key:Value格式。 约束限制: 不涉及 表7 NodePriority 参数 是否必选 参数类型 描述 nodeSelector
等监控大盘。 通过Pod内存监控查看内存增长曲线,确定异常出现时间。 根据监控、内存增长时间点、日志、进程名等信息,排查Pod内对应进程是否存在内存泄漏。 若OOM是进程内存泄漏导致,请您自行排查泄露原因。 若进程运行状态正常,则根据实际运行需要,适当增大Pod的内存限制,建议P
重启手动升级:如果本地有该镜像,则使用本地镜像,本地不存在时下载镜像。 APM2.0探针 探针版本:选择探针的版本。 “探针升级策略”,默认为“重启自动升级”。 重启自动升级:每次都尝试重新下载镜像。 重启手动升级:如果本地有该镜像,则使用本地镜像,本地不存在时下载镜像。 APM环境:输入APM环境名称,该参数为选填。