检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
更多创建工作负载的步骤,请参见无状态负载。 创建镜像密钥 华为云集群在创建时默认生成一个名为default-secret的密钥,其中包含SWR的访问凭证,因此无需重新创建镜像密钥。 附着集群在使用SWR中的私有镜像时,需创建镜像密钥用于拉取SWR镜像,操作步骤如下: 登录集群控制台。
本地集群ucs-ctl delete cluster和ucs-ctl delete node命令执行失败时,需要参考本文档手动清理节点。 操作步骤 于安装节点获取节点清理脚本。 在解压后的“/var/paas/.ucs-package/ucs-onpremise/scripts/”目
nvidia-{显卡型号}”标签,具体操作步骤请参见为节点添加标签/污点。 图1 为虚拟化节点打标签 步骤二:安装插件 如果您的集群中已安装符合基础规划的插件,您可以跳过此步骤。 更改驱动版本后,需要重启节点才能生效。 重启节点前需要排空节点中的Pod,在进行升级重启的操作。请注意预留GPU资源
更新服务网关 更新网关负载配置会造成网关实例Pod重启,服务将短暂中断,请谨慎操作。 控制台更新服务网关 登录UCS控制台,单击左侧导航栏中的“服务网格”,进入服务网格列表页。 单击服务网格名称,进入服务网格详情页。 在左侧导航栏,单击“服务网关 > 网关实例”,进入网关实例列表页面。
步骤一:准备工作 在使用UCS前,本小节将指导您进行一些必要的准备工作,包括注册华为云账号、为账号充值等。 注册华为云并实名认证 如果您已有一个华为云账户,请跳到下一个任务。如果您还没有华为云账户,请参考以下步骤创建。 打开华为云官网,单击“注册”。 根据提示信息完成注册,详细操作请参见注册和登录管理控制台。
动不了的情况,即节点未就绪。 操作步骤 “/mnt/paas/kubernetes/kubelet/cpu_manager_state”文件储存的是原先的cpu_manager_policy,是针对原先CPU核数的绑核设置,需要进行删除。然后重启kubelet,让cpu_manager根据现有的CPU
会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。 Kubernetes提供了三种健康检查的探针: 存活探针:livenessProbe,用于检测容器是否正常,类似于执行ps命令检查进程是否存在。如果容器的存活检查失败,集群会对该容器执行重启操作;若容器的存活检查成功则不执行任何操作。
会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。 Kubernetes提供了两种健康检查的探针: 存活探针:livenessProbe,用于检测容器是否正常,类似于执行ps命令检查进程是否存在。如果容器的存活检查失败,集群会对该容器执行重启操作;若容器的存活检查成功则不执行任何操作。
/sys/fs/cgroup/查看cgroup版本为cgroup2fs,该问题根因为当前kubernetes版本cgroup v2暂未GA,需要进行cgroup降级。 操作步骤 修改“/etc/default/grub”文件的GRUB_CMDLINE_LINUX配置项,添加systemd.unified_cgro
clusterName”或“cluster(clusterName) is joined successfully”。 可能原因 集群节点故障、Pod重启导致加入失败,由于karmadactl join命令不幂等,失败后再次执行会报错。 解决方案 请将集群从联邦中移出,然后执行kubectl
完成创建后通过将集群添加至舰队中。 描述 否 容器舰队的相关描述信息。 单击“确定”,创建舰队。 后续步骤 将需要管理的集群添加至本小节中创建的容器舰队中,具体操作请参见步骤三:为容器舰队添加集群。 父主题: 快速创建和管理容器舰队
容器启动后,容器中的内容不应修改。如果修改配置项(例如将容器应用的密码、证书、环境变量配置到容器中),当容器重启(例如节点异常重新调度Pod)后,会导致配置丢失,业务异常。 配置信息应通过入参等方式导入容器中,以免重启后配置丢失。 环境变量支持如下几种方式设置。 自定义:自行填写变量名称及变量值。 配置
步骤三:为容器舰队添加集群 您需要注册或纳管集群、为集群接入网络,以便将集群加入容器舰队进行管理。 UCS支持注册华为云集群、本地集群、附着集群、多云集群和伙伴云集群,本小节将以附着集群为例,以公网接入形式指导您快速添加一个Kubernetes集群至容器舰队。 获取KubeConfig文件
容器启动后,容器中的内容不应修改。如果修改配置项(例如将容器应用的密码、证书、环境变量配置到容器中),当容器重启(例如节点异常重新调度Pod)后,会导致配置丢失,业务异常。 配置信息应通过入参等方式导入容器中,以免重启后配置丢失。 环境变量支持如下几种方式设置。 自定义 配置项导入:将配置项中所有键值都导入为环境变量。
步骤四:管理多集群生命周期 创建多集群工作负载 统一下发多集群实例 统一治理多集群流量 开启多集群健康监控 父主题: 快速创建和管理容器舰队
有状态负载 在运行过程中会保存数据或状态的工作负载称为“有状态工作负载(statefulset)”,创建的Pod拥有持久型标识符,Pod迁移或销毁重启后,标识符仍会保留。有状态负载不支持弹性伸缩,适用于需要使用持久化存储的场景,如ETCD等。 创建有状态负载 登录UCS控制台,在左侧导航栏中选择“容器舰队”。
inux)。 扩容及分区完成后,重启普罗插件。 kubectl delete pod prometheus-server-0 -nmonitoring 重启prometheus-server-0将导致重启期间容器智能分析功能不可用,请合理选择重启时间。 父主题: 本地集群
行中”。 若在NPU驱动安装完成前就重启了节点,可能导致驱动安装失败,节点重启后集群“节点管理”页面对应的节点会显示“昇腾驱动未就绪”。此时需要先卸载该节点上的NPU驱动,再重启节点,才能重新安装NPU驱动,按上述步骤确认驱动安装完成后再重启节点。 父主题: 插件管理
sidecar,已存在的Pod需要配合重启服务才能生效注入istio-proxy sidecar。 重启服务 Sidecar自动注入开启时,将立即重启未注入sidecar的服务负载以注入sidecar;Sidecar自动注入关闭时,将立即重启已注入sidecar的服务负载以取消sidecar注入。
获取驱动链接方法请参考获取驱动链接-OBS地址。 请确保Nvidia驱动版本与GPU节点适配。 更改驱动版本后,需要重启节点才能生效。 重启节点前需要排空节点中的Pod,在进行升级重启的操作。请注意预留GPU资源以满足节点排空过程中的Pod调度需求,防止资源不足导致Pod调度失败影响业务运行。