检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何进行安全加固 登录CCE控制台。 在左侧导航栏中选择“集群管理”,单击要创建节点的集群进入集群控制台。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签并单击右上角的“创建节点”,在节点配置步骤中设置节点参数。 以下为开启安全加固关键参数设置,其余参数请根据需求设置。 在“操作系统”中选择“Huawei
手动更新GPU节点驱动版本 一般情况下,您可以通过CCE AI套件(NVIDIA GPU)插件配置节点的驱动文件路径,节点重启后会自动安装驱动。您也可以手动更新驱动的方式进行更新。 手动更新GPU节点的驱动版本为临时方案,适用于需要对某个节点进行差异化配置的场景,但节点重启后将自动重置为GPU插件配置中指定的版本。
选择GPU节点驱动版本 使用GPU加速型云服务器时,需要安装正确的Nvidia基础设施软件,才可以使用GPU实现计算加速功能。在使用GPU前,您需要根据GPU型号,选择兼容配套软件包并安装。 本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。 如何选择GPU节点驱动版本
理的节点。 您可以使用节点排水迁移节点上运行的Pod并隔离节点;您也可以手动迁移节点上运行的Pod后再通过管理节点污点为节点添加NoSchedule污点从而隔离节点。 您也可以选择将业务迁移至其它可用节点,然后创建新的节点,删除待处理的节点,以跳过后续步骤。 响应事件 请前往EC
调度的条件。 另外,部分节点池规格由于资源不足等扩容失败进入5min冷却期后,冷却期间扩容算法会自动过滤此类规格。 节点池优先级排序: 为每个节点池分配一个优先级,根据节点池优先级进行排序,优先选择优先级最高的节点池。 规格优先级选择: 如果存在多个节点池优先级最高的情况,则根据以下原则挑选优先级最高的规格:
节点规格(flavor)说明 不同区域支持的节点规格(flavor)不同,且节点规格存在新增、售罄下线等情况,建议您在使用前登录CCE控制台,在创建节点界面查看您需要的节点规格是否支持。 CCE Standard集群 CCE集群只支持2U4G以上的规格,建议您通过控制台查询节点规格,具体节点规格名称请参见规格清单。
操作: drain:从节点安全地逐出所有Pod,并将该节点标记为不可调度。 cordon:将节点标记为不可调度,即该节点将会被打上node.kubernetes.io/unschedulable = : NoSchedule的污点。 uncordon:将节点标记为可调度。 更多说明请参考kubectl文档。
表1 节点池升级前后的行为对比 类型 升级前 升级后 按需节点池 包年/包月节点池 支持的节点类型 仅按需 仅包年/包月 同时支持按需和包年/包月 扩容节点方式 更新节点池配置中的节点数量 更新节点池配置中的节点数量 扩缩容节点池 缩容节点方式 更新节点池配置中的节点数量 删除节点/移除节点
若在NPU驱动安装完成前就重启了节点,可能导致驱动安装失败,节点重启后集群“节点管理”页面对应的节点会显示“驱动未就绪”。此时需要先卸载该节点上的NPU驱动,再重启 npu-driver-installer Pod,才能重新安装NPU驱动,按上述步骤确认驱动安装完成后再重启节点。驱动卸载方式请参见NPU驱动卸载。
在左侧导航栏中选择“监控中心”,单击“节点”页签。 节点列表页面呈现了所有节点的综合信息,如需深入了解单个节点的监控情况,可单击节点名称,进入该节点的“概览”页面,通过切换“Pod列表”、“监控”页签查看相应内容。 节点列表 节点列表中包含节点名称、状态、IP地址、Pod(已分配/总
节点池 节点池概述 新版节点池切换说明 节点池多规格计费说明 创建节点池 扩缩容节点池 管理节点池 节点池管理最佳实践
为什么Pod调度不到某个节点上? 请排查节点和docker是否正常,排查方法请参见排查项七:内部组件是否正常。 如果节点和docker正常,而pod调度不到节点上,请确认pod是否做了亲和,排查方法请参见排查项三:检查工作负载的亲和性配置。 如果节点上的资源不足,导致节点调度不上,请扩容或者新增节点。
%时,关联的节点池都增加一个节点。CA策略需要关联节点池,可以关联多个节点池,当需要对节点扩缩容时,在节点池中根据最小浪费规则挑选合适规格的节点扩缩容。 节点数范围:修改节点数范围,弹性伸缩时节点池下的节点数量会始终介于节点数范围内。 冷却时间:当前节点池扩容出的节点多长时间不能被缩容。
影响范围 对CentOS Linux内核3.10.0-1127.el7之前的版本有影响。 解决方法 通过重置节点将内核升级至高版本,具体请参见重置节点。 父主题: 节点运行
问题描述 部分集群版本的存量节点docker审计日志量较大,由于操作系统内核缺陷,会低概率出现IO卡住。该问题可通过优化审计日志规则,降低问题出现的概率。 影响范围 受影响的集群版本: v1.15.11-r1 v.1.17.9-r0 只需对已有节点进行修复,新建节点默认无此问题。 升级过程需要重启auditd组件。
管理节点弹性策略 操作场景 节点弹性策略创建完成后,可对创建的策略进行删除、编辑、停用、启用、克隆等操作。 查看节点弹性策略 您可以查看节点弹性策略的关联节点池、执行规则和伸缩历史,参照界面中的提示有针对性的解决异常问题。 在CCE控制台,单击集群名称进入集群。 单击左侧导航栏的
调度需求的节点选出来,在打分阶段 kube-scheduler 会给每一个可调度节点进行优先级打分,最后kube-scheduler 会将 Pod 调度到得分最高的节点上,如果存在多个得分最高的节点,kube-scheduler 会从中随机选取一个。 打分优先级中节点调度均衡(B
大于等于0 110 允许 CCE Standard/CCE Turbo 节点上可以正常运行的容器 Pod 的数目上限(包含系统默认实例)。此配置可防止节点因管理过多容器Pod而负荷过高。 配置建议: 根据节点配置变化 Pod中最大进程数 Pod中可创建最大进程数 参数名 取值范围
在CCE集群中部署使用Tensorflow 资源准备 购买CCE集群,购买GPU节点并使用gpu-beta插件安装显卡驱动。 在集群下添加一个对象存储卷。 数据预置 从https://github.com/zalandoresearch/fashion-mnist下载数据。 获取
在创建服务界面,访问类型选择“节点访问”,在端口配置中,容器端口和服务端口都设置为8081,单击“确定”。该服务会自动生成节点访问端口,自动生成的节点端口位置请参见图2,本示例中节点访问端口为30327。您可以通过集群任一节点的弹性公网IP和端口号访问该工作负载。 图1 创建节点访问类型Service