检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在集群中安装CCE AI 套件 (NVIDIA GPU)和云原生监控插件。 CCE AI 套件 (NVIDIA GPU)是在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装该插件。安装GPU驱动时,需要匹配GPU类型和CUDA版本选择对应的驱动进行安装。 云原生监控插
30版本进行定期的更新,并提供功能增强。 关于CCE集群版本的更新说明,请参见补丁版本发布说明。 参考链接 关于Kubernetes 1.30与其他版本的性能对比和功能演进的更多信息,请参考:Kubernetes v1.30 Release Notes 父主题: Kubernetes版本发布记录
nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。 已安
集群所在的region。 Region对应的值请参见地区和终端节点。 failure-domain.beta.kubernetes.io/zone 是 创建云硬盘所在的可用区,必须和工作负载规划的可用区保持一致。 zone对应的值请参见地区和终端节点。 everest.io/disk-volume-type
暴露JobManager的Rest和UI端口的Service jobmanager-service.yaml 暴露Flink JobManager的REST和Web UI端口,使用户可以通过该Service访问JobManager的REST API和Web UI。 配置Flink集群的基本信息。
户配置的扩缩容策略,选择出一个最合适的节点池,在这个节点池扩容。HPA和CA的工作原理详情请参见工作负载伸缩原理和节点伸缩原理。 图1 HPA + CA工作流程 使用HPA+CA可以很容易做到弹性伸缩,且节点和Pod的伸缩过程可以非常方便地观察到,使用HPA+CA做弹性伸缩能够满足大部分业务场景需求。
cano调度器。 优先级调度与抢占介绍 用户在集群中运行的业务丰富多样,包括核心业务、非核心业务,在线业务、离线业务等,根据业务的重要程度和SLA要求,可以对不同业务类型设置相应的高优先级。比如对核心业务和在线业务设置高优先级,可以保证该类业务优先获取集群资源。当集群资源被非核心
如果Ingress转发策略配置了域名和路径,最多支持配置8个Values值。 如果Ingress转发策略仅配置了路径,最多支持配置9个Values值。 Values数组取值:长度限制1-128字符,不支持空格,双引号,支持以下通配符:*(匹配0个或更多字符)和?(正好匹配1个字符)。 kubernetes
与污点管理”。 在弹出的窗口中,在“批量操作”下方单击“新增批量操作”,然后选择“添加/更新”或“删除”。 填写需要增加/删除标签的“键”和“值”,单击“确定”。 例如,填写的键为“deploy_qa”,值为“true”,就可以从逻辑概念表示该节点是用来部署QA(测试)环境使用。
致Pod访问集群中HostNetwork的Pod和集群中节点的IP失败。 当前CiliumNetworkPolicy及CiliumClusterwideNetworkPolicy API不支持Node Selector、DNS策略和L7网络策略。 资源消耗 每个节点上有常驻进程c
应用往往都是由多个运行相同镜像的一组Pod组成,逐个访问Pod也变得不现实。 举个例子,假设有这样一个应用程序,使用Deployment创建了前台和后台,前台会调用后台做一些计算处理,如图1所示。后台运行了3个Pod,这些Pod是相互独立且可被替换的,当Pod出现状况被重建时,新建的Po
0为例进行演示。 如需选择其他合适的版本,请访问https://github.com/helm/helm/releases。 在连接集群的虚拟机上下载Helm客户端。 wget https://get.helm.sh/helm-v2.17.0-linux-amd64.tar.gz 解压Helm包。
管理、编辑与更新大量的Kubernetes配置文件。 部署一个含有大量配置文件的复杂Kubernetes应用。 分享和复用Kubernetes配置和应用。 参数化配置模板支持多个环境。 管理应用的发布:回滚、diff和查看发布历史。 控制一个部署周期中的某一些环节。 发布后的测试验证。 父主题: 模板(Helm
0为例进行演示。 如需选择其他合适的版本,请访问https://github.com/helm/helm/releases。 在连接集群的虚拟机上下载Helm客户端。 wget https://get.helm.sh/helm-v3.3.0-linux-amd64.tar.gz 解压Helm包。
er_duration_seconds_count Counter 销毁和更新的数量 kubelet_cgroup_manager_duration_seconds_bucket Histogram 销毁和更新操作的耗时分布情况 kubelet_pleg_relist_duration_seconds_count
NGINX Ingress控制器插件升级检查异常处理 检查项内容 检查项一:检查集群中是否存在未指定Ingress类型(annotations中未添加kubernetes.io/ingress.class: nginx)的Nginx Ingress路由。 检查项二:检查Nginx
当前kubelet上报Memory/Disk/PID Pressure情况(心跳)都依赖于eviction manager的检测。心跳上报和eviction manager的检测分别由两个协程并发执行。正常情况下,如果先执行eviction manager的检测,再执行心跳上报,
设置工作负载升级策略 在实际应用中,升级是一个常见的场景,Deployment、StatefulSet和DaemonSet都能够很方便地支撑应用升级。 设置不同的升级策略,有如下两种。 RollingUpdate:滚动升级,即逐步创建新Pod再删除旧Pod,为默认策略。 Recr
FormData参数时使用) 默认取值: 不涉及 X-Auth-Token 是 String 参数解释: 调用接口的认证方式分为Token和AK/SK两种,如果您使用的Token方式,此参数为必填,请填写Token的值,获取方式请参见获取token。 约束限制: 不涉及 取值范围:
Pod,kube-scheduler 会选择一个最优的节点去运行这个 Pod。kube-scheduler 给一个 Pod 做调度选择包含过滤和打分两个步骤。过滤阶段会将所有满足 Pod 调度需求的节点选出来,在打分阶段 kube-scheduler 会给每一个可调度节点进行优先级打分,最后kube-scheduler