检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Containerd OverlayFS runC 表3 CCE Turbo集群节点操作系统与容器引擎对应关系 节点类型 操作系统 内核版本 容器引擎 容器存储Rootfs 容器运行时 弹性云服务器-虚拟机 CentOS 7.6 3.x Docker Containerd OverlayFS
ving创建和部署用于推理的服务器。再结合pipeline(流水线)功能可实现端到端机器学习系统的自动化敏捷构建,实现AI领域的DevOps。 前提条件 已在CCE创建一个集群clusterA,集群下有一个可用GPU节点,节点上的GPU卡数量大于等于2。 由于安装Kubeflow需要从github下载文件,从gcr
节点迁移到自定义节点池 功能介绍 该API用于将节点迁移到自定义节点池,仅default节点池下节点支持迁移。迁移过程节点无重置无重启,原节点密码将保留。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 调用方法 请参见如何调用API。
27-10-r0、v1.28.8-r0、v1.29.4-r0及以上集群版本中,支持通过集群或节点池配置将软链方式修改为挂载,且节点池配置优先级高于集群配置。 当前仅提供API方式创建: 创建集群API示例如下,其余参数配置说明请参见创建集群。 POST /api/v3/projects/{project_id}/clusters
服务默认的插件部署策略是工作节点之间配置了强反亲和,AZ之间配置了弱反亲和的调度策略。本文提供了CCE插件调度策略的优化实践,业务可以根据自身可靠性的要求优化插件的部署策略。 高可靠部署方案 插件一般由无状态工作负载、守护进程等组成,守护进程默认会在所有节点上部署,而无状态工作负
er节点池的数量,并逐个删除Docker节点池中的节点。 推荐使用滚动的方式迁移,即扩容部分Containerd节点,再删除部分Docker节点,直至新的Containerd节点池中节点数量和原Docker节点池中节点数量一致。 若您在原有Docker节点或节点池上部署的负载设置
RuntimeMaxUse 创建节点/节点池时自动配置RuntimeMaxUse 您可以设置节点或节点池安装后执行脚本,在新建节点或节点池时通过脚本配置RuntimeMaxUse大小。 首先您需要确认创建节点或节点池的操作系统,例如CentOS 7.6。 在同集群、同操作系统的节点上进行脚本命令可
before:虚机部署 after:容器部署 部署 部署成本高。 每给一家客户部署一套系统,就需要购置一台虚拟机。 成本降低50%以上。 通过容器服务实现了多租隔离,在同一台虚拟机上可以给多个企业部署系统。 升级 升级效率低。 版本升级时,需要逐台登录虚拟机手动配置升级,效率低且容易出错。
域下的云资源权限,从而更好地为您提供服务。服务权限包括: 计算类服务 CCE集群创建节点时会关联创建云服务器,因此需要获取访问弹性云服务器、裸金属服务器的权限。 存储类服务 CCE支持为集群下节点和容器挂载存储,因此需要获取访问云硬盘、弹性文件、对象存储等服务的权限。 网络类服务
CCE节点NTP时间不同步如何解决? 问题现象 节点上的ntpd在长时间无法连接ntpserver等特殊场景下,可能导致偏移量过大,无法自动恢复。 问题检测 CCE节点故障检测插件(npd)中已包含节点时间同步检查项,您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。
Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高 问题现象 Containerd节点上业务容器标准输出不断写入大量日志,导致/var/lib/containerd目录占用空间不断增长,同时节点上容器创删速度变慢,进一步出现磁盘使用率过高、Pod驱逐、节点异常等现象。
CCE集群中的节点无法远程登录,如何排查解决? CCE创建节点成功后,无法ssh远程登录。ssh回显提示“所选的用户密钥未在远程主机上注册”,即root用户不能直接登录到节点。 出现上述问题的原因是CCE创建的节点安装了cloudinit,有默认的linux用户,并且该密钥也是用于linux。
节点 kubelet性能配置 kubelet配置 kube-proxy配置 计算配置
包年/包月节点修改自动续费配置 购买包年/包月计费模式的节点后,您可以根据需求为您的节点开通自动续费,或者修改已有的自动续费配置。 开通自动续费配置 登录CCE控制台,单击集群名称进入集群。 单击左侧导航栏的“节点管理”,并切换至“节点”页签。 单击包年/包月节点操作栏中的“更多
节点运行 集群可用但节点状态为“不可用”如何解决? CCE集群中的节点无法远程登录,如何排查解决? 如何重置CCE集群中节点的密码? 如何收集CCE集群中节点的日志? 如何解决yum update升级操作系统导致的容器网络不可用问题? Node节点vdb盘受损,通过重置节点仍无法恢复节点?
手动更新GPU节点驱动版本 一般情况下,您可以通过CCE AI套件(NVIDIA GPU)插件配置节点的驱动文件路径,节点重启后会自动安装驱动。您也可以手动更新驱动的方式进行更新。 手动更新GPU节点的驱动版本为临时方案,适用于需要对某个节点进行差异化配置的场景,但节点重启后将自动重置为GPU插件配置中指定的版本。
说明 参考文档 节点选择 nodeSelector 最简单的调度形式,通过节点所具有的标签选择希望调度的目标节点,Kubernetes只会将Pod调度到拥有指定标签的节点上。 设置指定节点调度(nodeSelector) 节点亲和 nodeAffinity 节点亲和可以实现nod
单击左侧导航栏的“节点管理”,在目标节点池所在行右上角单击“弹性伸缩”。 若未安装CCE集群弹性引擎插件,请根据业务需求配置插件参数后单击“安装”,并等待插件安装完成。插件配置详情请参见CCE集群弹性引擎。 若已安装CCE集群弹性引擎插件,则可直接配置弹性伸缩策略。 配置节点池弹性伸缩策略。 伸缩配置 自定义扩容
集群的管理规模和控制节点的数量有关系吗? 集群管理规模是指:当前集群支持管理的最大节点数。若选择50节点,表示当前集群最多可管理50个节点。 针对不同的集群规模,控制节点的规格不同,但数量不受管理规模的影响。 集群的多控制节点模式开启后将创建三个控制节点,在单个控制节点发生故障后集群可以继续使用,不影响业务功能。
败。 解决方法 登录节点上执行以下命令,过滤出告警提示的容器,确认是否处于exited状态。其中{containerId}需要替换为告警中提到的容器ID。 节点使用docker运行时: docker ps -a | grep {containerId} 节点使用containerd运行时: