-
使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE
知的。在集群高负载(资源不足)的情况下,会出现多个作业各自分配到部分资源运行一部分Pod,而又无法正执行完成的状况,从而造成资源浪费。以下图为例,集群有4块GPU卡,TFJob1和TFJob2作业各自有4个Worker,TFJob1和TFJob2各自分配到2个GPU。但是TFJo
-
集群类型对比 - 云容器引擎 CCE
算、网络、存储的资源管理复杂度。 适合对极致性能、资源利用率提升和全场景覆盖有更高诉求的客户。 适合具有明显的波峰波谷特征的业务负载,例如在线教育、电子商务等行业。 规格差异 网络模型 云原生网络1.0:面向性能和规模要求不高的场景。 容器隧道网络模式 VPC网络模式 云原生网络2
-
CCE容器存储(Everest) - 云容器引擎 CCE
everest-csi-controller通过端口3225暴露Prometheus metrics指标。您可以自建Prometheus采集器识别并通过http://{{everest-csi-controllerPodIP}}:3225/metrics路径获取everest-csi-controller相关指标。
-
管理工作负载 - 云容器引擎 CCE
L文件差异后提交升级。 编辑YAML 可通过在线YAML编辑窗对无状态工作负载、有状态工作负载、守护进程集、定时任务和容器组的YAML文件进行修改和下载。普通任务的YAML文件仅支持查看、复制和下载。本文以无状态工作负载为例说明如何在线编辑YAML。 登录CCE控制台,进入一个已
-
收集Kubernetes事件 - 云容器引擎 CCE
DeleteNodeWithNoServer #事件名,必选 nameCn: 废弃节点清理 #事件对应的中文名,不填则上报的事件直接显示英文 resourceType: Namespace #事件对应的资源类型 severity: Major
-
为负载均衡类型的Service配置HTTP/HTTPS协议 - 云容器引擎 CCE
9-r0、v1.27.6-r0、v1.28.4-r0及以上版本的集群支持。 当发布多个HTTPS的服务,所有监听器会使用相同的证书配置。 图1 配置HTTP/HTTPS协议 单击“确定”,创建Service。 通过kubectl命令行创建 Service使用HTTP/HTTPS协
-
全面修复Kubernetes权限许可和访问控制漏洞公告(CVE-2018-1002105) - 云容器引擎 CCE
CCE服务创建的集群默认关闭匿名用户访问权限。 CCE服务创建的集群没有使用聚合API。 华为云容器引擎已完成1.11以上版本Kubernetes集群的在线补丁修复,针对低于v1.10的集群(社区已不对其进行修复),已提供补丁版本进行修复,请关注升级公告,及时修复漏洞。 如果您是自己搭建Kub
-
开启云原生混部 - 云容器引擎 CCE
CPU Limit值,以降低业务长尾响应时延,详情请参见CPU Burst弹性限流。 出口网络带宽 开启 在CCE Turbo集群中,支持在线业务与离线业务的网络隔离,详情请参见出口网络带宽保障。 资源超卖 开启 通过实时采集节点负载信息,挖掘节点已分配、但未使用的资源,实现动态
-
通过自定义域名访问集群 - 云容器引擎 CCE
在连接信息的自定义SAN处单击,在弹出的窗口中添加IP地址或域名,然后单击“保存”。 图1 自定义SAN 1. 当前操作将会短暂重启kube-apiserver并更新kubeconfig.json文件,请避免在此期间操作集群。 2. 请输入域名或IP,以英文逗号(,)分隔,最多128个。 3. 自定义域名如需绑定弹性公网,请确保已配置公网地址。
-
收集Kubernetes事件 - 云容器引擎 CCE
事件,或者删除了对应的日志策略,可通过该方式重新创建默认事件采集策略。 图1 创建日志策略 事件查看:可直接在“日志中心”页面查看,选择日志策略配置的日志流名称,即可查看上报到云日志服务(LTS)的事件。 图2 查看事件 Kubernetes事件上报应用运维管理(AOM) 自1.3
-
Kubernetes版本策略 - 云容器引擎 CCE
版本EOS(停止服务)阶段:CCE集群版本EOS之后,CCE将不再支持对该版本的集群创建,同时不提供相应的技术支持,包含新特性更新、漏洞/问题修复、补丁升级以及工单指导、在线排查等客户支持,不再适用于CCE服务SLA保障。 CCE集群版本号说明 CCE 集群基于社区Kubernetes版本迭代演进,因此集群版本
-
工作负载伸缩原理 - 云容器引擎 CCE
Server可以实现基于CPU和内存的自动弹性伸缩,再配合Prometheus还可以实现自定义监控指标的自动弹性伸缩。 HPA主要流程如图1所示。 图1 HPA流程图 HPA的核心有如下2个部分: 监控数据来源 最早社区只提供基于CPU和Mem的HPA,随着应用越来越多搬迁到K8s上以及Pr
-
包年/包月 - 云容器引擎 CCE
15:50:04 ~ 2023/04/08 23:59:59。 到期后影响 图1描述了包年/包月资源各个阶段的状态。购买后,在计费周期内资源正常运行,此阶段为有效期;资源到期而未续费时,将陆续进入宽限期和保留期。 图1 包年/包月资源生命周期 到期预警 包年/包月资源在到期前7天内,系
-
自建Nginx Ingress迁移到ELB Ingress - 云容器引擎 CCE
全托管免运维:ELB属于全托管免运维的云服务,不占用工作节点。 高可用性:ELB支持多可用区的同城双活容灾,无缝实时切换。完善的健康检查机制,保障业务实时在线。 自动弹性:ELB支持自动弹性规格,处理能力随业务峰值自动伸缩。 超强性能:单个ELB实例最大支持100万QPS、千万级并发连接。 云产
-
什么是云容器引擎 - 云容器引擎 CCE
算、网络、存储的资源管理复杂度。 适合对极致性能、资源利用率提升和全场景覆盖有更高诉求的客户。 适合具有明显的波峰波谷特征的业务负载,例如在线教育、电子商务等行业。 规格差异 网络模型 云原生网络1.0:面向性能和规模要求不高的场景。 容器隧道网络模式 VPC网络模式 云原生网络2
-
通过模板部署应用 - 云容器引擎 CCE
登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“应用模板”,在右上角单击“上传模板”。 单击“添加文件”,选中待上传的工作负载包后,单击“上传”。 图1 上传模板包 创建模板实例 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“应用模板”。 在“我的模板”页签中,单击目标模板下的“安装”。
-
通过Helm v3客户端部署应用 - 云容器引擎 CCE
定义以及大量的配置文件。 仓库(Repository):仓库是用于存放共享模板包的地方,您可以从仓库中下载模板包至本地安装,也可以选择直接在线安装。 实例(Release):实例是Helm在Kubernetes集群中安装模板包后的运行结果。一个模板包通常可以在一个集群中安装多次,
-
工作负载伸缩原理 - 云容器引擎 CCE
Server可以实现基于CPU和内存的自动弹性伸缩,再配合Prometheus还可以实现自定义监控指标的自动弹性伸缩。 HPA主要流程如图1所示。 图1 HPA流程图 HPA的核心有如下2个部分: 监控数据来源 最早社区只提供基于CPU和Mem的HPA,随着应用越来越多搬迁到K8s上以及Pr
-
通过模板部署应用 - 云容器引擎 CCE
登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“应用模板”,在右上角单击“上传模板”。 单击“添加文件”,选中待上传的工作负载包后,单击“上传”。 图1 上传模板包 由于上传模板时创建OBS桶的命名规则由cce-charts-{region}-{domain_name}变为cce-char
-
优先级调度与抢占 - 云容器引擎 CCE
优先级调度与抢占介绍 用户在集群中运行的业务丰富多样,包括核心业务、非核心业务,在线业务、离线业务等,根据业务的重要程度和SLA要求,可以对不同业务类型设置相应的高优先级。比如对核心业务和在线业务设置高优先级,可以保证该类业务优先获取集群资源。当集群资源被非核心业务占用,整体