检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本文介绍如何在使用GPU能力前所需要的基础软件、硬件规划与准备工作。 基础规划 配置 支持版本 集群版本 v1.25.15-r7及以上 操作系统 华为云欧拉操作系统 2.0 系统架构 X86 GPU类型 T4、V100 驱动版本 GPU虚拟化功能仅支持470.57.02、510.47.03、535.54.03版本的GPU驱动。
使用npu插件在Ascend Snt9设备上运行,需先安装volcano插件。 约束与限制 该功能支持v1.28及以上本地集群版本。 目前仅支持arm架构,HCE2.0操作系统。 目前支持的NPU资源型号为Ascend Snt9。 Ascend Snt9设备调度必须使用volcano,且只支持单个容器实例下1、2、4、8卡调度。
服务健康 服务健康是通过对实际的访问情况进行统计来找出不健康的实例,属于被动型的健康检查。健康检查通过的实例,才会向服务端注册。 网格须开通AOM服务,否则无法查看服务健康。 操作步骤 登录UCS控制台,在左侧导航栏中单击“服务网格”。 单击服务网格名称,进入详情页。 在左侧导航
去掉此插件或者设置扩大因子为2.0。 overcommit-factor: 扩大因子,默认是1.2 - plugins: - name: overcommit arguments: overcommit-factor: 2.0 drf 根据作业使用的主导资源份额进行调度,用的越少的优先
网格使用时无法创建代理,istio组件调度失败,一直处于pending状态 解决方案 请检查节点的istiod的标签(istio=master)是否存在。 如果不存在请将istiod的标签istio=master加上。 可能原因 在CCE集群中把节点移除之后又再次纳管进去会重置节点,清除节点的标签。
architecture 表示节点处理器架构 例如:amd64,表示AMD64位的处理器 os.name 表示节点的操作系统名称 例如:EulerOS_2.0_SP2,表示欧拉2.2的版本 os.version 表示节点内核版本 污点(Taints)说明 污点格式为“Key=Value:Effe
如何修改kube-state-metrics组件的采集配置? 问题描述 kube-prometheus-stack插件的kube-state-metrics组件负责将Prometheus的metrics数据格式转换成K8s API接口能识别的格式。kube-state-metri
示例:某公司权限设计及配置 假设A公司在华为云使用UCS服务管理多集群,公司中有多个职能团队,分别负责权限分配、资源管理、创建应用、流量分发、监控运维等。结合使用IAM和UCS的权限管理,可以实现精细化授权的目标。 图1 组织结构示意图 行管团队:负责管理公司所有资源的团队。 开发团队:负责业务开发的团队。
策略中心运行异常怎么办? 策略中心运行异常的可能原因为Gatekeeper插件损坏,或者被删除。根据失败情况请使用以下方案排查修复: 检查gatekeeper-system命名空间中gatekeeper-controller-manager、gatekeeper-audit这两个
集群因策略拦截开启监控失败怎么办? 问题现象 集群开启监控时,接口返回报错,报错信息中含有gatekeeper字段。 集群开启监控请求下发成功,但是监控状态一直显示“安装中”,超时后显示“安装失败”,前往集群中检查插件的Pod状态,Pod的事件中含有gatekeeper字段。 原因分析
健康诊断 概述 健康诊断是容器智能分析的一个重要功能,用于诊断集群的健康状态。开通容器智能分析后,健康诊断将基于集群的配置和kube-prometheus-stack插件上报至AOM的指标,从集群、节点、工作负载、核心插件、外部依赖的维度出发,提供全面的集群健康状态检查。同时,该
"HugePages2Mi": "0", "Arch": "amd64", "OS": "EulerOS 2.0 (SP9x86_64)", "KernelVersion": "4.18.0-147.5.1.6.h687.eulerosv2r9
"HugePages2Mi": "0", "Arch": "amd64", "OS": "EulerOS 2.0 (SP9x86_64)", "KernelVersion": "4.18.0-147.5.1.6.h687.eulerosv2r9
"HugePages2Mi": "0", "Arch": "amd64", "OS": "EulerOS 2.0 (SP9x86_64)", "KernelVersion": "4.18.0-147.5.1.6.h687.eulerosv2r9
通过MCI访问服务失败,如何排查? 若您在创建MCI后访问服务失败,请检查MCI对象是否配置成功。 请登录ELB控制台,根据MCI绑定的ELB实例ID,找到并单击对应的ELB实例名称进入elb监听器页面,找到对应的监听器单击“添加/编辑转发策略”,进入ELB监听器的转发策略页面,
注册本地集群 本小节指导您将本地集群注册至UCS。 约束与限制 仅华为云账号且具备UCS FullAccess权限的用户可进行集群注册的操作。 前提条件 已在UCS控制台申请本地集群试用。 UCS集群配额充足。 节点/tmp目录需要预留20GB空间。 根据安装本地集群确保待执行机检查项已满足。
更新流量策略 YAML更新流量策略 以检查4分钟内forecast服务实例的访问异常情况为例,连续出现5次访问异常的实例将被隔离10分钟,被隔离的实例不超过30%,在第1次隔离期满后,异常实例将重新接收流量,如果仍然不能正常工作,则会被重新隔离,第2次将被隔离20分钟,以此类推。用户可根据实际需求对参数进行更新。
"HugePages2Mi": "0", "Arch": "amd64", "OS": "EulerOS 2.0 (SP9x86_64)", "KernelVersion": "4.18.0-147.5.1.6.h687.eulerosv2r9
负载均衡(LoadBalancer) 通过弹性负载均衡从公网访问工作负载,一般用于系统中需要暴露到公网的服务。访问方式由公网弹性负载均衡ELB服务地址以及设置的访问端口组成,例如“10.117.117.117:80”。 前提条件 请确保已有可用的工作负载,若没有请参照工作负载先创建工作负载。
使用南北向MCS 约束限制 当前MCS仅支持版本为1.21及以上的CCE Turbo集群、网络模型为underlay的其他Kubernetes集群创建。 请提前做好网络规划,保证成员集群间容器网络不冲突,确保ELB实例与容器Pod IP网络可达。若MCS的ELB实例与集群处于不同VPC内,请提前打通VPC间的网络。