检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。 已安装Volcano插件,详情请参见Volcano调度器。
CCE节点故障检测 插件介绍 CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。nod
本文介绍一种集群迁移方案,适合如下几类集群: 本地IDC自建的K8s集群 通过多台ECS自建的集群 其他云服务商提供的集群服务 停止维护,无法原地升级的需要迁移的CCE集群 在迁移前,需对原集群的所有资源进行分析再决定迁移方案,可迁移的资源包括集群内资源和集群外资源,如下表所示。 表1 可迁移资源列表 资源类别
nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。 已安装Volca
下的内部版本。用于跟踪某一集群版本内的迭代,集群版本内唯一,跨集群版本重新计数。 约束限制: 不支持用户指定,集群创建时自动选择对应集群版本的最新平台版本。 取值范围: platformVersion格式为:cce.X.Y X: 表示内部特性版本。集群版本中特性或者补丁修复,或者
集群网络配置 扩展集群VPC网段 父主题: 网络
修改CCE集群配置 操作场景 CCE支持对集群配置参数进行管理,通过该功能您可以对核心组件进行深度配置。 操作步骤 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到目标集群,查看集群的更多操作,并选择“配置管理”。 图1 配置管理 在侧边栏滑出的“配置管理”窗口中,根据业
ReadOnlyAccess策略权限,详细设置方法请参见集群权限(IAM授权)。 集群显示情况依赖于命名空间权限的设置情况,如果没有设置命名空间权限,则无法查看集群下的资源。 如果您设置了全部命名空间的view权限,则可以查看到对应集群的全部命名空间下的资源,但密钥 ( Secret )除外,密钥
Ingress配置gzip数据压缩 ELB支持开启数据压缩,通过数据压缩可缩小传输文件大小,提升文件传输效率减少带宽消耗。 该功能依赖ELB能力,使用该功能前请确认当前区域是否支持。ELB已支持的区域请参见数据压缩。 配置数据压缩后,如果您在CCE控制台删除数据压缩配置或在YAML中
如何确认已创建的集群是否为多控制节点模式? 登录CCE控制台,进入集群,在集群详情页面右侧查看控制节点数量: 3个节点即为多控制节点模式。 1个节点即为单控制节点模式。 集群一旦创建,便无法更改控制节点数,需要重新创建集群才能调整。 父主题: 集群运行
服务器的异常。 CoreDNS自身metrics数据接口,默认zone侦听{$POD_IP}:9153,请保持此默认值,否则普罗无法采集coredns metrics数据。 若您是自建Prometheus监控Kubernetes集群,可以在Prometheus观测相关指标并对以下
集群升级 集群升级 获取集群升级任务详情 重试集群升级任务 暂停集群升级任务(已废弃) 继续执行集群升级任务(已废弃) 获取集群升级任务详情列表 集群升级前检查 获取集群升级前检查任务详情 获取集群升级前检查任务详情列表 集群升级后确认 集群备份 获取集群备份任务详情列表 获取集群升级相关信息
集群升级 功能介绍 集群升级。 集群升级涉及多维度的组件升级操作,强烈建议统一通过CCE控制台执行交互式升级,降低集群升级过程的业务意外受损风险; 当前集群升级相关接口受限开放。 调用方法 请参见如何调用API。 URI POST /api/v3/projects/{projec
华为云容器服务CCE Autopilot数据面账单变更公告 发布时间:2024/09/14 华为云计划于2024/09/18 22:00:00(北京时间)对CCE Autopilot数据面CPU、内存资源账单进行调整,调整后CCE Autopilot数据面资源账单的产品类型将从云容器引擎
nts功能升级为Beta版本。 支持跨命名空间存储数据源 Kubernetes 1.26允许在源数据属于不同的命名空间时为PersistentVolumeClaim指定数据源。当前该特性处于Alpha阶段,详情请参见跨命名空间数据源。 可追溯的默认StorageClass进入Beta阶段
排查项三:节点安全组是否被修改或删除 问题现象: 在CCE集群中新增节点时创建失败。 解决方法: 您可单击集群名称,查看“集群信息”页面。在“网络信息”中单击“节点默认安全组”后的按钮,检查集群的节点默认安全组是否被删除,且安全组规则需要满足集群安全组规则配置。 如果您的账号下含有多个集群,需要统一管理节点的网络
Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高 问题现象 Containerd节点上业务容器标准输出不断写入大量日志,导致/var/lib/containerd目录占用空间不断增长,同时节点上容器创删速度变慢,进一步出现磁盘使用率过高、Pod驱逐、节点异常等现象。
明持久卷的数据还原成功。 业务流量切换 由运维人员做DNS切换,将流量引到新集群。 DNS流量切换:调整DNS配置实现流量切换。 客户端流量切换:升级客户端代码或更新配置实现流量切换。 原集群下线 由运维人员确认新集群业务正常后,下线原集群并清理备份文件。 确认新集群业务正常。 下线原集群。
“云原生2.0网络”集群(CCE Turbo集群) 取决于节点最大实例数和CCE Turbo集群节点网卡数量中的最小值 建议节点最大实例数不要超过节点网卡数,否则当节点可分配网卡不足时,新建Pod将无法在该节点上正常运行。 节点可分配容器IP数说明 在创建CCE集群时,如果网络模型选
费。关于免费指标详情请参见基础指标-容器指标。 对接第三方监控平台 开启后,支持将普罗数据上报至第三方监控平台,您需要提前获取第三方监控平台的数据上报地址及身份认证凭据。详情请参见CCE云原生监控插件对接第三方监控平台。 日志配置 采集配置 CCE可以帮助您快速采集 Kubernetes