检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU虚拟化节点弹性伸缩配置 当集群中GPU虚拟化资源不足时,支持自动进行GPU节点的弹性伸缩。本文将指导您如何创建GPU虚拟化节点的弹性伸缩策略。 前提条件 已创建一个v1.28或v1.29版本的集群。 在集群中安装CCE AI套件(NVIDIA GPU)(2.7.5及以上版本
SMN(Simple Message Notification,消息通知服务)是向订阅者主动推送消息的服务,订阅者可以是电子邮件、短信、HTTP和HTTPS等。 主题是消息发布或客户端订阅通知的特定事件类型。它作为发送消息和订阅通知的信道,为发布者和订阅者提供一个可以相互交流的通道。
支持初始化时配置,不支持后续修改 CCE Standard/CCE Turbo 获取方法如下: 方法1:登录虚拟私有云服务的控制台界面,在虚拟私有云的详情页面查找VPC ID。 方法2:通过虚拟私有云服务的API接口查询。 配置建议: VPC在集群创建后无法修改,请对VPC下IP资源是否充足、是否计划
兼容Kubernetes默认GPU调度模式 开启GPU虚拟化后,工作负载调度GPU时建议使用显存隔离模式(即设置volcano.sh/gpu-mem.128Mi资源)和算显隔离模式(即同时设置volcano.sh/gpu-mem.128Mi和volcano.sh/gpu-core
如果您需要对您所拥有的云容器引擎(CCE)进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),如果账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用CCE服务的其它功能。 默认情况下,新建的IAM用户没有任何权
可选字段 对象存储的企业项目ID。如果指定企业项目,则创建PVC时也需要指定相同的企业项目,否则PVC无法绑定PV。 获取方法:在对象存储服务控制台,单击左侧栏目树中的“桶列表”或“并行文件系统”,单击要对接的对象存储名称进入详情页,在“概览 > 基本信息”页签下找到企业项目,单
x86 EulerOS 2.10 x86 IPv4接收报文数 dolphin_ip4_rcv_pkt pod runc/kata v1.19及以上 1.1.2 EulerOS 2.9 x86 EulerOS 2.10 x86 IPv4接收字节数 dolphin_ip4_rcv_byte
警规则,告警等级为紧急。当内存使用率的最大值大于80%,且持续了1分钟时,给联系组CCEGroup内的所有告警联系人发送通知 (通知方式为短信或邮件)。 通知内容包含集群名称、命名空间、Pod名称、容器名称以及当前的内存使用率。 高级设置(可选) 告警标签:添加告警标识性属性,用
网络总流入速率:负载的所有Pod的容器在不同的时间段的每秒钟接收的总字节数。 网络发送丢包率:负载的所有Pod的容器在不同的时间段的发送丢失的数据包总量占发送的数据包总量的比例。 网络接收丢包率:负载的所有Pod的容器在不同的时间段的接收丢失的数据包总量占接收的数据包总量的比例。 Pod相关指标 Pod
容器service服务报文经过kubeproxy重定向到新业务。 开源现状 目前开源社区ipvlan L2E模式仍存在此问题,已向开源社区反馈,待确认更优方案。 解决方法 打印Dead loop问题本身无需解决。 但推荐服务Pod使用优雅退出,在业务真正终止服务前,优先将Pod设
Standard集群: 弹性云服务器-虚拟机:基于弹性云服务器部署容器服务。 弹性云服务器-物理机:基于擎天架构的服务器部署容器服务。 裸金属服务器:基于裸金属服务器部署容器服务,需要挂载本地盘或支持挂载云硬盘。 CCE Turbo集群: 弹性云服务器-虚拟机:基于弹性云服务器部署容器服务,仅支持可添加多张弹性网卡的机型。
PCIE 接收带宽 cce_gpu_pcie_throughput_tx Gauge KB/s GPU卡 GPU PCIE 发送带宽 cce_gpu_nvlink_utilization_counter_rx Gauge KB/s GPU卡 GPU nvlink 接收带宽 cce
标签 云专线服务的标识,包括键和值。可以为云专线服务创建10个标签。 说明: 如果已经通过TMS的预定义标签功能预先创建了标签,则可以直接选择对应的标签键和值。 预定义标签的详细内容,请参见预定义标签简介。 描述 用户可以对物理连接添加备注信息。 联系人姓名/手机/Email 用户可以在此提供用户侧专线负责人信息。
异构资源配置 GPU配置 GPU虚拟化:CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU
容器CPU受限:Pod的每个容器在不同的时间段的CPU受限时间所占的比例。 容器网络丢包率:Pod的每个的容器在不同的时间段接收丢失的数据包总量占接收的数据包总量的比例。 其他指标 Pod 历史状态:Pod在不同时间段所处的状态。 容器历史状态:Pod的每个容器在不同的时间段所处的状态。
ELB的VIP:服务端口”访问工作负载。 DNAT网关 NAT网关提供网络地址转换服务,使多个云服务器可以共享弹性公网IP。 您需要提前创建公网NAT网关实例。 容器端口:指容器中工作负载启动监听的端口。端口根据每个业务的不同而不同,一般在容器镜像中已指定。 服务端口:代表NAT
照创建点的数据状态。 例如,当由于云服务器 A的系统盘 A发生故障而无法正常开机时,由于系统盘 A已经故障,因此也无法将快照数据回滚至系统盘A。此时您可以使用系统盘 A已有的快照新创建一块云硬盘 B并挂载至正常运行的云服务器 B上,从而云服务器 B能够通过云硬盘 B读取原系统盘 A的数据。
通过kubectl对接多个集群 应用现状 kubectl命令行工具使用kubeconfig配置文件来查找选择集群所需的认证信息,并与集群的API服务器进行通信。默认情况下,kubectl会使用“$HOME/.kube/config”文件作为访问集群的凭证。 在CCE集群的日常使用过程中
监控等各类云服务资源都存在依赖关系,因此当您首次登录CCE控制台时,CCE将自动请求获取当前区域下的云资源权限,从而更好地为您提供服务。服务权限包括: 计算类服务 CCE集群创建节点时会关联创建云服务器,因此需要获取访问弹性云服务器、裸金属服务器的权限。 存储类服务 CCE支持为
CCE权限概述 CCE权限管理是在统一身份认证服务(IAM)与Kubernetes的角色访问控制(RBAC)的能力基础上,打造的细粒度权限管理功能,支持基于IAM的细粒度权限控制和IAM Token认证,支持集群级别、命名空间级别的权限控制,帮助用户便捷灵活的对租户下的IAM用户、用户组设定不同的操作权限。