检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置条件触发自动切流 本小节指导您配置条件触发自动切流,以识别集群CoreDNS功能故障并自动摘除流量。 为集群安装CPD组件识别集群 在配置自动切流前,您需要在集群中安装CPD(cluster-problem-detector)组件,以自动探测集群CoreDNS域名解析功能是否正常,并进行上报。
配置无条件触发自动切流 集群管理员进行集群升级等操作,若出现升级策略不恰当、升级配置有误、操作人员执行失误等问题,可能会导致集群不可用。本小节指导您在进行集群升级前,通过创建无条件触发的Remedy对象,将MCI流量从目标集群上摘除。 创建Remedy对象可在特定触发条件下执行特
etrics-server的安装按钮。 在“安装插件”页面进行规格配置,该插件可配置“单实例”、“高可用”和“自定义”三种规格,选择后单击“安装”。 在本地集群中,metrics-server插件的最大实例数依赖manage节点数量,如果想要使用“自定义”规格创建更多的metri
UCS集群配额充足。 节点/tmp目录需要预留20GB空间。 根据安装本地集群确保待执行机检查项已满足。 准备一台执行机,要求与集群网络连通。 注册集群 登录UCS控制台,在左侧导航栏中选择“容器舰队”。 单击本地集群选项卡中的“注册集群”按钮。 参考表1填写待添加集群的基础信息,其中带“*”的参数为必填参数。
调用API获取项目ID 从控制台获取项目ID 调用API获取项目ID 项目ID可以通过调用查询指定条件下的项目列表API获取。 获取项目ID的接口为“GET https://{Endpoint}/v3/projects”,其中{Endpoint}为IAM的终端节点,可以从地区和终端节点获取。接口的认证鉴权请参见认证鉴权。
下载集群代理agent的配置文件。 集群代理配置存在私有密钥信息,每个集群代理配置仅能下载一次,请您妥善保管。 将步骤3中的agent配置文件上传至节点。 单击“安装集群代理agent配置”,在待接入集群中执行如下命令,可单击右侧直接复制命令。 图3 安装集群代理agent配置 私网接入的集
登录集群控制台。 在左侧导航栏中单击“插件管理”,在可安装插件栏中单击E-Backup插件下的“安装”按钮。 参照表1进行插件规格配置。 表1 E-Backup插件规格配置 参数 参数说明 插件规格 单实例部署。 容器 设置插件容器实例的资源配额。 velero:提供K8s元数据备份/恢复支持。
节点--XGPU设备数量 节点--XGPU设备显存分配量 GPU卡--XGPU设备显存使用率 GPU卡--XGPU设备显存分配量 GPU卡--XGPU设备显存分配率 GPU卡--XGPU设备算力使用率 GPU卡--XGPU设备数量 GPU卡--调度策略 GPU卡--不健康的XGPU设备数量 容器显存分配量
如表1所示。部分状态将影响集群进行监控开启、监控配置修改和监控关闭操作,详见后续章节的约束与限制部分。 表1 插件状态说明 状态 说明 插件未安装 插件未安装 运行中 插件全部实例状态都在运行中,插件正常使用 安装中 插件正在安装中 升级中 插件正在更新中 回滚中 插件正在回滚中
API中采集度量数据,提供基础资源使用指标,例如容器CPU和内存使用率。 为本地集群安装metrics-server,请参见metrics-server。 为其他集群安装metrics-server,请参见社区官方文档。对于附着集群,您也可安装对应厂商所提供的metric-server插件。 Promethe
的磁盘,请勿修改删除该磁盘。 设置工作负载容器配置。 Pod中可以配置多个容器,您可以单击右侧“添加容器”为Pod配置多个容器并分别进行设置。 图1 容器配置 容器信息:Pod中可以配置多个容器,您可以单击右侧“添加容器”为Pod配置多个容器。 基本信息:请参见表2。 表2 基本信息参数说明
服务运维系统插件由云原生服务中心提供,当部署的服务声明了诸如日志、监控运维能力配置时,集群中如果没有对应的运维能力插件,将会自动安装,您可通过“服务插件”页面查看各个集群中部署的运维能力插件。 背景知识 服务运维系统插件分别用于提供服务日志和监控能力。 ops-operator插件用于提供日志功能,部署在目标集群的osc-global命名空间中。
下载集群代理agent的配置文件。 集群代理配置存在私有密钥信息,每个集群代理配置仅能下载一次,请您妥善保管。 将步骤2中的agent配置文件上传至节点。 单击“安装集群代理agent配置”,在待接入集群中执行如下命令,可单击右侧直接复制命令。 图1 安装集群代理agent配置 前往UCS控制台刷新集群状态,集群处于“运行中”。
选择项目,再选择步骤三:购买终端节点中创建的终端节点。 图5 选择终端节点 将2中的agent配置文件上传至节点。 单击“安装集群代理agent配置”,在待接入集群中执行如下命令,可单击右侧直接复制命令。 图6 安装集群代理agent配置 私网接入的集群无法通过私网下载SWR镜像仓库中的镜像,请确保工作负载运行的节点可访问公网。
如何手动清理本地集群节点? 使用须知 节点清理属于高危操作,会将节点上已安装的进程(包括kubernetes进程、containerd等)和数据(包括容器、镜像等)全部清理,一旦执行清理操作节点状态将不可恢复。因此,执行之前请确认节点是否已经不再被本地集群使用。 使用场景 本地集群ucs-ctl
如果您要使用“第三方Jaeger/Zipkin服务”调用链,请先自行完成调用链服务的安装,也可参考Jaeger/Zipkin OSC插件安装进行安装。之后获取服务地址。 Jaeger和Zipkin的默认服务端口均为9411,如果安装的时候自定义了服务端口在配置“服务端口”时请填写实际的值。 参数设置完成之后,单
员日常观察资源的变更以及定位问题均有帮助。如果您需要监控集群内事件,可以前往“容器洞察 > 事件”页面查看。为了实现这一目标,您需要为集群安装log-agent插件,该插件可以采集Kubernetes事件,并在“容器洞察 > 事件”页面进行展示。 功能入口 登录UCS控制台。 在
过80% Pod的24小时内内存使用率最大值是否超过80% Pod配置 Pod中的容器是否配置Request Pod中的容器是否配置Limit Pod探针配置 Pod中的容器是否配置存活探针 Pod中的容器是否配置就绪探针 外部依赖 租户节点资源配额 租户云硬盘配额是否超过90%
创建完成后会在无状态负载页面新增一条名称为zipkin的记录,其状态变为运行中表示zipkin已成功安装到该集群的monitoring命名空间下。 也可参考zipkin官网资料自行完成安装。 创建负载均衡服务。 在集群详情页面,单击“服务-服务-创建服务”,如下设置参数: Servi
CORS 当一个资源向该资源所在服务器的不同的域发起请求时,就会产生一个跨域的HTTP请求。出于安全原因,浏览器会限制从脚本发起的跨域HTTP请求。通过跨域资源共享CORS机制可允许Web应用服务器进行跨域访问控制,使跨域数据传输安全进行。 YAML设置如下: apiVersion: