检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为虚拟化节点打标签 步骤二:安装插件 如果您的集群中已安装符合基础规划的插件,您可以跳过此步骤。 更改驱动版本后,需要重启节点才能生效。 重启节点前需要排空节点中的Pod,在进行升级重启的操作。请注意预留GPU资源以满足节点排空过程中的Pod调度需求,防止资源不足导致Pod调度失败影响业务运行。
监控GPU资源 本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。 前提条件 完成GPU资源准备。 当前本地集群已创建GPU资源。 当前本地集群开启了监控能力。 GPU监控 登录UCS控制台,在左侧导航栏选择“容器智能分析”。 选择对应的集群并开启监控,详细操作请参照集群开启监控。
Running 0 29d Pod属于命名空间级资源。此外,大多数工作负载资源、Service资源、配置与存储资源都属于命名空间级。 工作负载资源 Pod:Kubernetes部署应用或服务的最小的基本单位。 ReplicaSet:Kubernetes中
在左侧导航栏中选择“自定义资源”,在右上角单击“YAML创建”。 在线编辑或选择导入自定义资源的YAML文件,单击“确定”。 其他操作: 单击操作列“查看YAML”,可查看自定义资源的YAML内容。 单击操作列“查看资源”,可查看集群中已有的自定义资源实例。 父主题: 单集群管理
UCS服务资源权限(IAM授权) UCS服务资源权限是基于IAM系统策略的授权,UCS服务资源包括容器舰队、集群、联邦实例等等,管理员可以针对用户的角色(如开发、运维)进行差异化授权,精细控制他们对UCS资源的使用范围。 IAM通过用户组功能实现用户的授权,在给用户组授权之前,请
如何清理策略中心相关资源? 对于已启用策略中心功能的集群,在以下场景中,可能会存在资源残留情况: 集群连接中断时,停用策略中心 集群停用策略中心过程中,连接中断 集群连接中断后,注销集群 集群连接中断后,移出舰队 因此需要执行如下命令,清理残留资源: kubectl delete
如何清理多云集群资源? 在多云集群注销过程中,若因某些原因导致注销失败,您可以尝试重新进行注销操作。但在此之前,请确保已经在AWS控制台手动删除了集群关联的资源。本章节将为您提供这些资源的名称和数量,您可以分别访问AWS的EC2面板和VPC面板,查看并删除相应资源。 表1中,${
GPU调度概述 工作负载支持使用节点GPU资源,GPU资源使用可以分为如下两种模式: GPU静态分配(共享/独享):按比例给Pod分配GPU显卡资源,支持独享(分配单张/多张显卡)和共享(部分显卡)方式。 GPU虚拟化:UCS On Premises GPU采用xGPU虚拟化技术
delete。 资源对象:您可以选择“全部资源”或“指定资源”。全部资源对象包括当前已有的资源对象和后续新增的自定义资源对象;“指定资源”即表示您自己选择资源对象的范围,为了便于查找,UCS服务将资源对象按照工作负载、服务、配置和存储、身份验证、授权、权限、扩展、集群维度划分。 若系
可以确保所有团队在使用集群资源时遵循相同的标准。 自动化策略部署:在UCS策略中心启用并创建策略实例后,系统会自动将这些策略应用到多个集群中,这将大大减少手动配置的时间和出错的可能性。 监控策略实施情况:UCS策略中心能够提供诸如集群合规率、不合规资源、告警事件数以及强制拦截事件
集群注销后如何清理权限相关资源? 在集群从UCS注销后,可能会存在一些RBAC资源残留,您可以根据以下建议清理这些资源。 UCS创建的RBAC资源带有标签"ucs.rbac.policy=true",您可以利用此标签对UCS创建的RBAC资源进行查询、删除等操作。 例如: 父主题:
资源包是否支持退订或修改? 已购买的套餐包暂时不支持退订或修改。 父主题: 计费相关
ck插件接口,插件安装未成功原因含有“resource that already exists”字段。 原因分析 kube-prometheus-stack插件存在资源残留。 处理手段 可执行如下操作进行资源残留清理,并在清理后重新开启监控。 kubectl delete ns monitoring
已购买资源包,为什么仍然产生按需计费? 请按表1识别产生按需计费的原因,并重新选择正确的资源包或保证账户中的余额充足。 表1 排查思路 可能原因 处理措施 购买套餐包中集群类型与实际接入的集群类型不一致 购买所接入集群类型对应的套餐包 购买套餐包中集群规模小于实际接入的集群规模
负载伸缩概述 为什么需要负载伸缩 由于企业应用流量的不断变化,容器工作负载的资源需求也在不断变化。在部署、管理容器工作负载时,若时刻保持业务高峰期的资源数量,会造成大量的资源浪费;若为工作负载设置资源限制,则达到资源使用上限后可能会造成应用异常。Kubernetes中的HPA(Horizontal
签查询全部待续费资源,对资源进行手动续费的操作。 图1 续费管理 所有需手动续费的资源都可归置到“手动续费项”页签,具体操作请参见如何恢复为手动续费。 手动续费资源。 单个续费:在资源页面找到需要续费的资源,单击操作列的“续费”。 图2 单个续费 批量续费:在资源页面勾选需要续费的资源,单击列表左上角的“批量续费”。
部分服务只支持特定的CPU架构,只能部署到对应CPU架构的集群中。 操作步骤 需要存储资源的实例在创建实例时会默认创建按需付费的云存储资源,计费详情请参见 https://www.huaweicloud.com/pricing.html?tab=detail。 已创建的存储资源详情可以在“云容器引擎
行管人员将多集群联邦基础设施搭建完成后,开发人员就可以使用这些基础设施资源了,详细的操作指导请参见工作负载、流量分发。 运维团队:查看并监控资源使用情况 运维人员利用容器智能分析提供的智能分析、仪表盘、通知配置、7x24小时守护功能,实时监控工作负载资源,分析应用健康状态,以及完成其他日常运维工作。详细的操作指导请参见容器智能分析。
免异常情况下节点资源消耗过多,避免极端场景下因节点资源耗尽导致已运行的容器业务被驱逐。 创建工作负载时,建议设置CPU和内存的资源上下限。同一个节点上部署的工作负载,对于未设置资源上下限的工作负载,如果其异常资源泄露会导致其它工作负载分配不到资源而异常。未设置资源上下限的工作负载,工作负载监控信息也会不准确。
tedHPA策略扩展工作负载Pod数量后,配置调度策略将扩展出的Pod调度到具有更多资源的集群,以解决单个集群的资源限制,提高故障发生时的恢复能力。 FederatedHPA工作原理 FederatedHPA的工作原理如图1,实现流程如下: HPA Controller通过API定期查询工作负载的指标数据。