检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
组调度(Gang) 组调度(Gang)满足了调度过程中“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件
Set、DaemonSet、Job、CronJob等多种类型。 云容器引擎CCE提供基于Kubernetes原生类型的容器部署和管理能力,支持容器工作负载部署、配置、监控、扩容、升级、卸载、服务发现及负载均衡等生命周期管理。 容器组(Pod) 容器组(Pod)是Kubernete
为Nginx Ingress配置GRPC协议的后端服务 本文介绍如何使用Nginx Ingress将流量路由到gRPC后端服务。 gRPC介绍 gRPC是一种高性能、通用的RPC开源软件框架,使用Protocol Buffer作为其接口定义语言(IDL)以及底层消息交换格式。同时
使用Service实现简单的灰度发布和蓝绿发布 CCE实现灰度发布通常需要向集群额外部署其他开源工具,例如Nginx Ingress,或将业务部署至服务网格,利用服务网格的能力实现。这些方案均有一些难度,如果您的灰度发布需求比较简单,且不希望引入过多的插件或复杂的用法,则可以参考
管理节点污点 污点(Taint)能够使节点排斥某些特定的Pod,从而避免Pod调度到该节点上。 通过控制台管理节点污点 在CCE控制台上同样可以管理节点的污点,且可以批量操作。 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签
云容器引擎CCE支持哪些网络能力? VPC网络是什么原理?是如何实现的? 集群与虚拟私有云、子网的关系是怎样的? 如何查看虚拟私有云VPC的网段? 如何规划集群中虚拟私有云VPC和子网网段? 如何设置集群容器网段? 更多 容器存储类 使用CCE时,如何外接存储设备? CCE支持的持久化存储有哪些,哪种存储需要设置备份?
server持续处于资源高水位状态,超过承载能力时就会出现集群过载现象。 CCE集群过载保护能力 过载控制:CCE集群从v1.23版本开始支持集群过载控制,在集群控制平面的资源压力较大时,通过减少处理系统外LIST请求来缓解压力。该功能需要开启集群的过载控制开关,详情请参见集群过载控制。
您可以扩容集群管理规模,集群管理规模越大,控制节点规格越高、性能也更佳。操作详情请参见变更集群规格。 如果您出现以上集群过载的情况,您也可以提交工单以获取技术支持。 排查项三:集群Secret落盘加密使用的KMS密钥是否有效 问题现象 当出现集群不可用,您可以查看集群事件确认异常原因。 当集群事件中
您可以使用nvidia-smi命令查看的节点上驱动信息,确定Nvidia驱动与CUDA Toolkit版本的配套关系,如下图,驱动版本为470.141.03, 对应支持的CUDA Toolkit最大版本为11.4。 图1 Nvidia驱动与CUDA Toolkit版本的配套关系 CUDA Toolkit和驱动的版本兼容性列表
CCE Turbo集群(云原生2.0网络模型)中,仅当Service的后端对接使用主机网络(HostNetwork)的Pod时,亲和级别支持配置为节点级别。 表格中仅列举了可能存在访问不通的场景,其他不在表格中的场景即表示可以正常访问。 服务端发布服务类型 访问类型 客户端请求发起位置
ingress-test 负载均衡器 选择对接的ELB实例或自动创建ELB实例。可选择“共享型”或“独享型”。 独享型ELB 监听器配置 前端协议:支持“HTTP”和“HTTPS”。 对外端口:ELB监听器的端口。 访问控制: 继承ELB已有配置:CCE不对ELB侧已有的访问控制进行修改。
kube-scheduler调度器在分配Pod时不会考虑应用的实际负载,如果应用负载不均匀可能导致某些节点的负载较高,而其他节点的负载较低。 Volcano调度器支持使用负载感知调度功能,感知集群内节点CPU、Memory的负载情况,将Pod优先调度到负载较低的节点,实现节点负载均衡,避免出现因单个节点
name}{"\n"}{end}' | grep <secret_id> 仅v1.19.16-r2、v1.21.5-r0、v1.23.3-r0及以上版本的集群支持使用ELB服务中的证书,上述版本集群请参考方案一处理,其他版本集群请参考方案二处理。 方案一:您可以将Ingress使用的证书替换为ELB
ory、GPU等资源在分配时都需要考虑。这个时候DRF应运而生,简单来说DRF就是 max-min fairness 算法的泛化版本,可以支持多种类型资源的公平分配, 即每个用户的主资源满足 max-min fairness 要求。 每个Job资源的Share值计算如下: Share
可信用户Pod的exec/attach/portforward权限。 如果您当前使用的Kubernetes版本低于v1.10,不在官方补丁支持范围内,建议自行回合补丁代码 :https://github.com/kubernetes/kubernetes/pull/71412。 父主题:
为帮助企业高效上云,华为云Solution as Code萃取丰富上云成功实践,提供一系列基于华为云可快速部署的解决方案,帮助用户降低上云门槛。同时开放完整源码,支持个性化配置,解决方案开箱即用,所见即所得。 表3 Solution as Code一键式部署类最佳实践汇总 一键式部署方案 说明 相关服务
CCE Turbo集群(云原生2.0网络模型)中,仅当Service的后端对接使用主机网络(HostNetwork)的Pod时,亲和级别支持配置为节点级别。 表格中仅列举了可能存在访问不通的场景,其他不在表格中的场景即表示可以正常访问。 服务端发布服务类型 访问类型 客户端请求发起位置
Kubernetes Metrics Server 插件介绍 从Kubernetes 1.8开始,Kubernetes通过Metrics API提供资源使用指标,例如容器CPU和内存使用率。这些度量可以由用户直接访问(例如,通过使用kubectl top命令),或者由集群中的控制器(例如,Horizontal
在左侧导航栏中选择“命名空间”。 单击对应命名空间后的“管理配额”。 系统级别的命名空间kube-system、kube-public默认不支持设置资源配额。 设置资源配额,然后单击“确定”。 命名空间设置了CPU或内存资源配额后,创建工作负载时,必须指定CPU或内存的请求值(re
集群升级前检查 功能介绍 集群升级前检查 调用方法 请参见如何调用API。 URI POST /api/v3/projects/{project_id}/clusters/{cluster_id}/operation/precheck 表1 路径参数 参数 是否必选 参数类型 描述