检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
1 创建虚拟私有云 您需要创建虚拟私有云,为CCE集群提供一个隔离的、用户自主配置和管理的虚拟网络环境。 若您已有虚拟私有云,可重复使用,无需多次创建。 登录管理控制台。 在服务列表中,选择“网络 > 虚拟私有云 VPC”。 在“总览”界面,单击“创建虚拟私有云”。 根据界面提示
将K8s集群迁移到CCE 自建K8s集群迁移方案概述 目标集群资源规划 实施步骤 父主题: 迁移
7会偶现触发ext4文件系统卡死,ext4/jbd2会因为死锁而永远挂起。在文件系统上执行I/O的所有任务都将受到影响。 解决方法 临时解决方案:该问题触发后可以通过重启节点临时恢复。 长久解决方案: 若您的集群版本为1.19.16-r0、1.21.7-r0、1.23.5-r0、1.25.1-r0及以上,请将
节点thinpool空间大小,理论上有概率出现节点thinpool空间耗尽的场景。 解决方案 当节点已出现thinpool空间耗尽时,可将部分业务迁移至其他节点实现业务快速恢复。但对于此类问题,建议采用以下方案从根因上解决问题: 方案1: 合理规划业务分布及数据面磁盘空间,避免和减少出现业务容器数*basesize
ngress的api接口时,创建的Ingress中没有property属性。为了与社区的client-go兼容,CCE提供了如下解决方案。 解决方案 在使用client-go创建Ingress实例时,在annotation中做如下声明: kubernetes.io/ingress
检查当前HelmRelease记录中是否含有目标集群版本不支持的K8s废弃API,可能导致升级后helm模板不可用。 解决方案 将HelmRelease记录中K8s废弃API转换为源版本和目标版本均兼容的API。 该检查项解决方案已在升级流程中自动兼容处理,此检查不再限制。您无需关注并处理。 父主题: 升级前检查异常问题排查
AI套件(NVIDIA GPU)插件配置节点的驱动文件路径,节点重启后会自动安装驱动。您也可以手动更新驱动的方式进行更新。 手动更新GPU节点的驱动版本为临时方案,适用于需要对某个节点进行差异化配置的场景,但节点重启后将自动重置为GPU插件配置中指定的版本。 如果需要稳定升级GPU节点驱动,推荐使用通过节点池升级节点的GPU驱动版本。
Master节点子网配额检查异常处理 检查项内容 检查本次升级集群子网剩余可用IP数量是否支持滚动升级。 解决方案 该问题一般因为您选择的集群子网的IP数量不够,无法支持滚动升级; 请您迁移对应子网中的节点之后重试检查,若您无法确认迁移影响,请您提交工单联系运维人员支撑。 父主题:
检查历史升级记录是否满足升级条件 检查项内容 检查集群的历史升级记录,要求您的集群原始版本满足升级到目标集群版本的条件。 解决方案 该问题一般由于您的集群从比较老的版本升级而来,升级风险较大,建议您优先考虑集群迁移 若您仍然想要升级该集群,请您提交工单,联系技术支持人员进行评估。
客户在有状态工作负载上挂载EVS存储卷,但无法挂载卷并超时。 问题定位: 经查询确认,该节点在可用区1,而要挂载的磁盘在可用区2,导致无法挂载而超时。 解决方案: 在同一可用区内创建磁盘再挂载后即可正常。 排查项二:存储中是否同时存在多条权限相关的配置 如果您挂载的存储中内容太多,同时又配置了以下
量,可用于把外部信息传递给Pod中运行的容器,可以在应用部署后灵活修改,详情请参见设置环境变量。 数据存储(可选):在容器内挂载本地存储或云存储,不同类型的存储使用场景及挂载方式不同,详情请参见存储。 有状态负载支持“动态挂载”云硬盘,详情请参见在有状态负载中动态挂载云硬盘存储及在有状态负载中动态挂载本地持久卷。
如:分布式云场景中跨云、跨集群的统一调度,以及不同在线应用、离线任务的统一调度。 首先,Volcano通过静态分析,获取应用的静态特征,如:CPU、内存、存储、GPU等资源的需求,应用间亲和性、区域亲和性、云平台亲和性等。 接着,Volcano对接监控系统,获取不同云平台资源、集
场景一:解析外部域名慢 优化方案: 如果此工作负载不需要访问集群内的k8s服务,可以参考如何设置容器内的DNS策略?。 如果此工作服务访问其他的k8s服务时,使用的域名中“.”的个数小于2,可以将ndots参数设置为2。 场景二:解析外部域名超时 优化方案: 通常业务内的超时时间要大于timeout
Ingress实现弹性伸缩 华为云学院 云原生王者之路 云原生知识体系深度剖析,带您走上王者之路 学习周期: 4周 每周学时: 6-8小时 云原生王者之路 云原生应用架构 通过本课程了解云原生应用场景及对应的华为云方案 4小时 云原生应用架构介绍 人人学云容器 认识华为云容器从入门到精通 1小时
Service方式,修改配置工作量大。 在集群外自建了一个其他服务,需要将集群中的数据通过固定域名发送到这个服务。 解决方案 使用CoreDNS有以下几种自定义域名解析的方案。 为CoreDNS配置存根域:为特定域名指定域名解析服务器,可以直接在控制台添加,简单易操作。 使用 CoreDNS
格式实例转换为 Helm V3 格式。部分 Helm V2 功能在 Helm V3 上有了更好的解决方案,但可能存在与原有方式不兼容的情况,需要您根据Helm V3 与 Helm V2 的差异及适配方案进行排查并做相应的适配验证。 如您短期内切换到 Helm V3 存在困难,可通过后台 Helm
Pod重建风险检查异常处理 检查项内容 检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。 解决方案 请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重建带来的影响; 如需帮助,请您提交工单联系运维人员获取支持。 父主题:
节点CPU使用率检查异常处理 检查项内容 检查节点CPU使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
要求优化插件的部署策略。 高可靠部署方案 插件一般由无状态工作负载、守护进程等组成,守护进程默认会在所有节点上部署,而无状态工作负载在高可用的情况下会设置多实例、设置AZ亲和策略以及指定节点调度来保证插件应用的高可靠性。 实例级别的高可用方案: 增加实例数量:采用多实例部署方式可
GPU虚拟化 GPU虚拟化能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。 GPU虚拟化 NPU调度 CCE为集群中