检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。详情请参见组调度(Gang)。 它满足了调度过程中的“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费。
基于Pod实例画像的资源超卖 Volcano新增基于Pod实例画像的超卖量算法。该算法持续采集并累积节点上Pod的CPU和内存利用率,统计Pod资源用量的概率分布特征,进而计算出节点资源用量的概率分布特征,从而在一定的置信度下给出节点资源用量的评估值。基于Pod实例画像的超卖量算法会同时考虑节点资源使用的整体水位和起伏变化
实例管理策略(podManagementPolicy): 对于某些分布式系统来说,StatefulSet 的顺序性保证是不必要和/或者不应该的。 这些系统仅要求唯一性和身份标志。
IPVS缺陷导致节点上升级CoreDNS后出现概率性解析超时 故障现象 在集群使用IPVS转发的场景下,节点上升级CoreDNS后,可能出现概率性丢包,导致域名解析失败。 问题根因 该问题由IPVS缺陷导致,社区已在IPVS v5.9-rc1版本中修复该问题,详情请参见ipvs:
修改最大文件句柄数 最大文件句柄数即打开文件数的最大限制,Linux系统中包含两个文件句柄限制:一个是系统级的,即所有用户的进程同时打开文件数的上限;一种是用户级的,即单个用户进程打开文件数的上限。但是在容器中,还有另一个文件句柄限制,即容器内部单进程最大文件句柄数。 修改节点系统参数的命令仅在使用公共镜像时有效
将容器应用从SFS 1.0迁移到通用文件系统(SFS 3.0)或SFS Turbo 弹性文件服务(SFS)提供了SFS容量型(SFS 1.0)、通用文件系统(SFS 3.0)和SFS Turbo三种类型的文件系统,关于各类型文件系统的特点和优势请参见文件系统类型。 历史版本中,CCE
低版本内核的CentOS节点反复创删应用时偶现cgroup kmem泄露问题 故障现象 CentOS 7.6节点内核低于3.10.0-1062.12.1.el7.x86_64的场景下(主要为1.17.9版本集群),反复创建应用时出现cgroup kmem泄露,导致节点内存有空余,但是无法创建新的
暂停集群升级任务(已废弃) 功能介绍 暂停集群升级任务。 集群升级涉及多维度的组件升级操作,强烈建议统一通过CCE控制台执行交互式升级,降低集群升级过程的业务意外受损风险; 当前集群升级相关接口受限开放。 调用方法 请参见如何调用API。 URI POST /api/v3/projects
继续执行集群升级任务(已废弃) 功能介绍 继续执行被暂停的集群升级任务。 集群升级涉及多维度的组件升级操作,强烈建议统一通过CCE控制台执行交互式升级,降低集群升级过程的业务意外受损风险; 当前集群升级相关接口受限开放。 调用方法 请参见如何调用API。 URI POST /api
重试集群升级任务 功能介绍 重新执行失败的集群升级任务。 集群升级涉及多维度的组件升级操作,强烈建议统一通过CCE控制台执行交互式升级,降低集群升级过程的业务意外受损风险; 当前集群升级相关接口受限开放。 调用方法 请参见如何调用API。 URI POST /api/v3/projects
集群升级 功能介绍 集群升级。 集群升级涉及多维度的组件升级操作,强烈建议统一通过CCE控制台执行交互式升级,降低集群升级过程的业务意外受损风险; 当前集群升级相关接口受限开放。 调用方法 请参见如何调用API。 URI POST /api/v3/projects/{project_id
修改节点进程 ID数量上限kernel.pid_max 背景信息 进程 ID(PID)是节点上的一种基础资源,容易在尚未超出其它资源约束的时候触及进程ID数量上限,进而导致节点不稳定。 您可以根据实际业务需求调整进程ID数量上限。 默认kernel.pid_max说明 CCE在2022
iptables与IPVS如何选择 kube-proxy是Kubernetes集群的关键组件,负责Service和其后端容器Pod之间进行负载均衡转发。 CCE当前支持iptables和IPVS两种服务转发模式,各有优缺点。 特性差异 iptables IPVS 定位 成熟稳定的kube-proxy
获取集群升级任务详情 功能介绍 获取集群升级任务详情,任务ID由调用集群升级API后从响应体中uid字段获取。 集群升级涉及多维度的组件升级操作,强烈建议统一通过CCE控制台执行交互式升级,降低集群升级过程的业务意外受损风险; 当前集群升级相关接口受限开放。 调用方法 请参见如何调用
修改节点日志缓存内存占用量上限RuntimeMaxUse Journald是Linux中的日志系统,负责把日志信息写入二进制文件,并默认使用/run/log/journal目录作为日志缓存目录。Journald的配置文件位于节点/etc/systemd/journald.conf目录
这对于请求的追踪和调试来说非常有用,尤其是在分布式系统中定位问题。 开启 忽略无效标头 ignore-invalid-headers 在接收到包含无效头部的HTTP请求时,NGINX默认会拒绝该请求。这个配置项开启后,NGINX将会忽略这些无效的头部信息并继续处理请求。
节点池弹性伸缩优先级说明 前提条件 如需使用节点规格优先级功能,autoscaler插件版本要求为1.19.35、1.21.28、1.23.30、1.25.20及以上。其中AZ均衡分布策略在1.23.122、1.25.117、1.27.85、1.28.52及以上支持。 弹性扩容策略
仅用作专属云集群,专属分布式存储DSS的存储池ID,即dssPoolID。 获取方法请参见获取单个专属分布式存储池详情中“表3 响应参数”的ID字段。
仅用作专属云集群,专属分布式存储DSS的存储池ID,即dssPoolID。 获取方法请参见获取单个专属分布式存储池详情中“表3 响应参数”的ID字段。
仅用作专属云集群,专属分布式存储DSS的存储池ID,即dssPoolID。 获取方法请参见获取单个专属分布式存储池详情中“表3 响应参数”的ID字段。