检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
修改监控配置 集群开启监控成功后,还可以修改监控配置,网络配置、指标采集配置和事件采集配置均支持修改。 当事件采集配置从开启置为关闭,系统将会删除log-agent插件。 约束与限制 kube-prometheus-stack插件处于“安装中”、“升级中”、“删除中”、“回滚中”
Ingress-nginx控制器用于存储nginx配置,实现统一路由转发管理。关于Ingress-nginx的详细信息请参见Ingress-Nginx Controller和社区官方项目。 本小节将指导您为本地集群安装与使用Ingress-nginx。 约束与限制 该小节指导仅适用于UCS本地集群安装Ingress-nginx。
如何监控插件是否异常 集群接入网格后,会自动在集群中安装asm-mesh-controller插件,本文介绍如何配置告警监控该插件是否异常。 告警管理使用前提条件:已在主机安装ICagent,详情请参考安装ICAgent。更多告警操作请参考告警管理使用说明。 登录AOM华为云官网,在AOM产品简介下方单击“AOM1
选择一个容器舰队或者未加入舰队的集群,并单击右上角“开启监控”按钮。 图1 选择舰队或未加入舰队的集群 选择一个华为云集群。 单击“下一步:接入配置”,完成指标采集配置。 规格配置 部署模式:支持Agent模式和Server模式。Agent模式占用集群资源较低,为集群提供普罗指标采集能力,但不支持基于自定
完成以上配置后,单击“安装”。 图1 安装huawei-npu插件 安装huawei-npu插件,需要确认已安装volcano插件。 驱动安装成功后需要重启节点才能生效,驱动安装成功确认方式请参见如何确认节点NPU驱动已安装完成。 插件卸载不会自动删除已安装的NPU驱动,用户需自行卸载删除相关资源。 升级插件
仅支持访问类型为“负载均衡”的服务,其他类型的服务将被自动过滤。 浏览器访问负载均衡IP地址,查看部署结果。 图3 查看部署结果 功能验证 按照上述集群应用部署操作,示例应用分别部署在集群“ccecluster01”、“ccecluster02”中,并以“负载均衡”类型的服务对外提供访问。
name already exists”字段。 集群开启监控请求下发成功,但是监控状态为“安装失败”或“未知”,在开启监控页面查看kube-prometheus-stack插件接口,插件安装未成功原因含有“resource that already exists”字段。 原因分析
便用户进行部署应用、增量变化和应用配置的回滚。 更精细的多集群、多环境差异化配置体验: 复用同一个应用组件(如多个业务线都对数据库的连接池模板复用)的交付模板,形成最佳实践模板。 进行更灵活的标签替换、字符串、版本号替换/参数的动态嵌入/Patch操作。 父主题: 配置管理
如何手动清理本地集群节点? 使用须知 节点清理属于高危操作,会将节点上已安装的进程(包括kubernetes进程、containerd等)和数据(包括容器、镜像等)全部清理,一旦执行清理操作节点状态将不可恢复。因此,执行之前请确认节点是否已经不再被本地集群使用。 使用场景 本地集群ucs-ctl
关于CPU/内存配额申请和限制的具体说明请参见设置容器规格。 异构资源 当已安装gpu-device-plugin插件时,可配置GPU限制值,详情请参见GPU调度。 当已安装huawei-npu插件时,可配置NPU限制值,详情请参见NPU调度。 说明: 异构资源该参数,当前仅涉及本地集群工作负载。
备份与恢复 背景 UCS本地集群安装完成后,为保证集群高可用,防止在发生集群故障时数据丢失,UCS支持对于本地集群上的3个master节点上的证书文件、加解密物料、etcd数据等信息的备份,以保障UCS本地集群故障后的数据恢复。 约束与限制 无论是单master还是多master故障,节点IP须保持不变。
创建完成后会在无状态负载页面新增一条名称为zipkin的记录,其状态变为运行中表示zipkin已成功安装到该集群的monitoring命名空间下。 也可参考zipkin官网资料自行完成安装。 创建负载均衡服务。 在集群详情页面,单击“服务-服务-创建服务”,如下设置参数: Servi
的磁盘,请勿修改删除该磁盘。 设置工作负载容器配置。 Pod中可以配置多个容器,您可以单击右侧“添加容器”为Pod配置多个容器并分别进行设置。 图1 容器配置 容器信息:Pod中可以配置多个容器,您可以单击右侧“添加容器”为Pod配置多个容器。 基本信息:请参见表2。 表2 基本信息参数说明
网格代理将会被安装在网格中每个Pod的Sidecar,通过在每个Pod独立的网络命名空间设置iptables规则,将应用服务的出入流量重定向到Sidecar的Envoy进程上,由Envoy进行流量路由。 图1 sidecar-proxy node-proxy 网格代理将会被安装在添加到
NPU节点标签 创建NPU节点后,安装huawei-npu插件,需要给节点添加标签“accelerator/huawei-npu”,标签值可为空。 添加NPU节点标签 依次单击“本地集群>节点管理>选择节点>标签与污点管理”。 选择NPU节点,添加标签“accelerator/huawei-npu”,标签值可为空。
本地集群是由UCS提供的、运行在您的数据中心基础设施之上的Kubernetes集群。您只需要准备好相关物理资源,安装Kubernetes软件以及接入UCS的过程完全交给华为云来处理。 本地集群兼容多种底层基础设施,支持部署在裸金属服务器和VMware等虚拟化Iaas上,支持容器网络与底层网络打通,支持利用C
配置条件触发自动切流 本小节指导您配置条件触发自动切流,以识别集群CoreDNS功能故障并自动摘除流量。 为集群安装CPD组件识别集群 在配置自动切流前,您需要在集群中安装CPD(cluster-problem-detector)组件,以自动探测集群CoreDNS域名解析功能是否正常,并进行上报。
作步骤请参见为节点添加标签/污点。 安装插件 登录UCS控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”。 在“可安装插件”中找到gpu-device-plugin,单击“安装”。 在安装插件页面,填写插件配置。 插件规格:可配置“默认”或“自定义”规格,请根据实际情况选择。
容器迁移准备工作 硬件资源 在开始迁移之前,请确保您已准备了一台安装了kubectl的服务器,用于连接源集群和目标集群。该服务器需要至少拥有5GB左右的本地磁盘空间和≥8G的内存,以确保迁移工具可以正常运行,并存储相关数据,如源集群的采集数据和目标集群的推荐数据等。 迁移工具支持
per字段。 集群开启监控请求下发成功,但是监控状态一直显示“安装中”,超时后显示“安装失败”,前往集群中检查插件的Pod状态,Pod的事件中含有gatekeeper字段。 原因分析 如果开启监控的集群在策略中心配置了拦截级别的策略规则,则可能导致开启监控失败。 处理手段 请在指