检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
自建K8s集群迁移方案概述 操作场景 随着容器化技术的发展,越来越多的企业使用容器代替了虚拟机完成应用的运行部署,而Kubernetes的发展让容器化的部署变得简单并且高效。目前许多企业选择自建Kubernetes集群,但是自建集群往往有着沉重的运维负担,需要运维人员自己配置管理
存资源被普通工作负载占用的情况,导致GPU/NPU资源闲置。 解决方案 在使用GPU/NPU节点时,可以为其添加污点,并通过工作负载容忍度设置,避免非GPU/NPU工作负载调度到GPU/NPU节点上。 GPU/NPU工作负载:添加指定污点的容忍度,可以调度至GPU/NPU节点。
app: nginx # 选择标签为app:nginx的Pod clusterIP: None # 必须设置为None,表示Headless Service 执行如下命令创建Headless Service。 # kubectl create -f
自定义亲和策略:填写期望插件部署的节点标签实现更灵活的调度策略,若不填写将根据集群默认调度策略进行随机调度。 配置建议: 使用默认配置 同时设置多条自定义亲和策略时,需要保证集群中存在同时满足所有亲和策略的节点,否则插件实例将无法运行。 容忍策略 节点异常时等待指定时间再驱逐插件volcano容器实例,提高插件可用性
化资源的无状态负载,并将GPU申请量设为大于集群现有GPU资源上限。例如:集群中有16GiB显存的资源,假设每个Pod占用1GiB显存,则设置Pod数量为17个,合计17GiB显存。 在等待一小段时间后,可以在节点池详情页面中,可观察到GPU节点的扩容。 父主题: GPU调度
集群休眠后,集群中的工作节点(即ECS)并不会自动关机,如需关机可勾选“关机集群下所有节点”选项。您也可以在集群休眠后自行登录ECS控制台将节点关机,具体请参见节点关机。 大部分节点关机后不再收费,特殊ECS实例(包含本地硬盘,如磁盘增强型,超高I/O型等)关机后仍然正常收费,具体请参见ECS计费模式。
支持修改公网IP:节点上的公网IP可以在ECS控制台更换。 修改节点私网IP后如何恢复 节点私网IP修改后,会导致节点不可用。这时您需要将节点的私网IP修改回原来使用的IP。 在CCE控制台,查看节点详情,找到该节点之前使用的IP和子网。 图1 节点私网IP地址和所在子网 登录ECS控制台,找到节点,
会同时存在于AOM中。 随着历史数据的老化,集群内的Prometheus将会与AOM中数据完全相同(例如:您的Prometheus存储时长设置为7天,7天以后AOM中的数据将会和集群内的Prometheus数据完全相同)。 编辑云原生监控插件,切换为无本地存储的轻量化模式,您可以
登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”。 在“插件中心”页面右侧找到云原生监控插件,单击“安装”。 建议您关注以下配置,其他配置可按需进行设置。详情请参见云原生监控插件。 本地数据存储:使用本地存储监控数据,监控数据可选择是否上报至AOM或三方监控平台。 自定义指标采集:该配置在
MasterEIPRequest(); MasterEIPRequestSpecSpec specSpec = new MasterEIPRequestSpecSpec(); specSpec.withId("a757a69e-f920-455a-b1ba-d7a22db0fd50");
uringExecution: # 尽量满足如下条件 - weight: 100 # 使用尽量满足策略时可设置优先级,取值为1-100,数值越大优先级越高 podAffinityTerm:
Jenkins的Master和Agent均可安装在虚拟机或容器中,且组合形式可多样,参见表1。 表1 Jenkins部署模式 部署模式 Master Agent 优缺点分析 单Master 虚拟机 - 优点:本地化构建,操作简单。 缺点:任务管理和执行都在同一台虚拟机上,安全风险较高。 单Master
不同集群间共享使用了相同的集群CA和认证凭据。 漏洞修复方案 对于集群内跨节点的攻击,建议您采取以下安全防范措施: 请妥善保管认证凭据。 授权子账号遵循权限最小化原则,通过设置RBAC权限,限制不必要的pods/exec、pods/attach、pods/portforward和proxy类型的资源访问。 父主题:
云容器引擎CCE 建议选择按需计费。 集群类型:CCE集群 集群版本:v1.25 集群规模:50节点 高可用:是 1 2.91元/小时 虚拟机节点 建议选择按需计费。 虚拟机节点类型:通用计算增强型 节点规格:4核 | 8GiB 操作系统:EulerOS 2.9 系统盘:50GiB | 通用型SSD
欠费后需要及时充值,详细操作请参见账户充值。 若集群不再使用,您可以将集群及集群中使用的其他云服务资源删除,以免继续扣费。 您可以在“费用中心 > 总览”页面设置“可用额度预警”功能,当可用额度、通用代金券和现金券的总额度低于预警阈值时,系统自动发送短信和邮件提醒。 当产生欠费后,请您及时充值使可用
集群中磁盘不可用的节点个数。 不可用节点数 个 集群中未就绪的节点个数。 CPU使用率 百分比 集群中所有容器的CPU使用量总和占所有容器设置的Limit总和的百分比。 CPU Requests水位 百分比 集群整体CPU Requests占集群CPU容量的百分比。 CPU Limits水位
镜像版本未更新。您可能未使用正确的镜像版本,或者是旧版镜像和新版镜像重名均为latest版本,而节点上已存在旧版镜像,但工作负载的imagePullPolicy设置为IfNotPresent,导致未重新拉取新版镜像仍然运行旧版镜像。 配置中的环境变量错误。例如将command拼写成commnd,仍然能
问题现象 当出现集群不可用,您可以查看集群事件确认异常原因。 当集群事件中存在“KMS密钥状态异常”时,您需要确认该集群对应的使用的密钥状态是否被设置为“禁用”或“计划删除”。 解决方案 登录数据加密服务 DEW控制台。 在自定义密钥列表中,找到集群使用的KMS密钥。 “计划删除”状态的
称长度为1~255字符。 告警消息显示名:即订阅终端接收消息的标题名称。假设订阅终端为邮件,推送邮件消息时,若已设置告警消息显示名,发件人则呈现为“显示名”,若未设置告警消息显示名,发件人呈现为“username@example.com”。支持在联系组创建完成后修改告警消息显示名。
迁移前Checklist 类别 描述 集群相关 Nodeip强相关:确认之前集群的节点IP(包括EIP),是否有作为其他的配置或者白名单之类的设置。 工作负载 记录工作负载数目,便于迁移后检查。 存储 确认应用中存储,是否使用云,或者自己搭建存储。 自动创建的存储需要在新集群中变成使用已有存储。