检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
略PropagationPolicy均衡部署到双集群,并通过MultiClusterIngress发布应用,详情可参见使用kubectl命令实现UCS高可用部署操作步骤。 容器级容错实施建议 容器级容错旨在通过配置健康检查和自动重启机制,确保容器应用的高可用性和可靠性。应用部署需要遵守以下规范:
nvidia-{显卡型号}”标签,具体操作步骤请参见为节点添加标签/污点。 图1 为虚拟化节点打标签 步骤二:安装插件 如果您的集群中已安装符合基础规划的插件,您可以跳过此步骤。 更改驱动版本后,需要重启节点才能生效。 重启节点前需要排空节点中的Pod,在进行升级重启的操作。请注意预留GPU资源
本地集群ucs-ctl delete cluster和ucs-ctl delete node命令执行失败时,需要参考本文档手动清理节点。 操作步骤 于安装节点获取节点清理脚本。 在解压后的“/var/paas/.ucs-package/ucs-onpremise/scripts/”目
/sys/fs/cgroup/查看cgroup版本为cgroup2fs,该问题根因为当前kubernetes版本cgroup v2暂未GA,需要进行cgroup降级。 操作步骤 修改“/etc/default/grub”文件的GRUB_CMDLINE_LINUX配置项,添加systemd.unified_cgro
动不了的情况,即节点未就绪。 操作步骤 “/mnt/paas/kubernetes/kubelet/cpu_manager_state”文件储存的是原先的cpu_manager_policy,是针对原先CPU核数的绑核设置,需要进行删除。然后重启kubelet,让cpu_manager根据现有的CPU
步骤一:准备工作 在使用UCS前,本小节将指导您进行一些必要的准备工作,包括注册华为云账号、为账号充值等。 注册华为云并实名认证 如果您已有一个华为云账户,请跳到下一个任务。如果您还没有华为云账户,请参考以下步骤创建。 打开华为云官网,单击“注册”。 根据提示信息完成注册,详细操作请参见注册和登录管理控制台。
clusterName”或“cluster(clusterName) is joined successfully”。 可能原因 集群节点故障、Pod重启导致加入失败,由于karmadactl join命令不幂等,失败后再次执行会报错。 解决方案 请将集群从联邦中移出,然后执行kubectl
若回显如下命令,则etcd的节点数据恢复成功: Restore the etcd snapshot successfully. 对etcd节点重启etcd服务,重启过程需要等待几分钟。 mv /var/paas/kubernetes/etcd*.manifest /var/paas/kubernetes/manifests
可单击“返回工作负载列表”查看所创建的工作负载。 后续步骤 在创建多集群工作负载后,您可对工作负载的生命周期进行管理,请参见: 设置工作负载网络,具体操作请参见网络。 设置工作负载存储,具体操作请参见存储。 父主题: 步骤四:管理多集群生命周期
获取驱动链接方法请参考获取驱动链接-OBS地址。 请确保Nvidia驱动版本与GPU节点适配。 更改驱动版本后,需要重启节点才能生效。 重启节点前需要排空节点中的Pod,在进行升级重启的操作。请注意预留GPU资源以满足节点排空过程中的Pod调度需求,防止资源不足导致Pod调度失败影响业务运行。
更新服务网关 更新网关负载配置会造成网关实例Pod重启,服务将短暂中断,请谨慎操作。 控制台更新服务网关 登录UCS控制台,单击左侧导航栏中的“服务网格”,进入服务网格列表页。 单击服务网格名称,进入服务网格详情页。 在左侧导航栏,单击“服务网关 > 网关实例”,进入网关实例列表页面。
行中”。 若在NPU驱动安装完成前就重启了节点,可能导致驱动安装失败,节点重启后集群“节点管理”页面对应的节点会显示“昇腾驱动未就绪”。此时需要先卸载该节点上的NPU驱动,再重启节点,才能重新安装NPU驱动,按上述步骤确认驱动安装完成后再重启节点。 父主题: 插件管理
inux)。 扩容及分区完成后,重启普罗插件。 kubectl delete pod prometheus-server-0 -nmonitoring 重启prometheus-server-0将导致重启期间容器智能分析功能不可用,请合理选择重启时间。 父主题: 本地集群
步骤四:管理多集群生命周期 创建多集群工作负载 统一下发多集群实例 统一治理多集群流量 开启多集群健康监控 父主题: 快速创建和管理容器舰队
完成创建后通过将集群添加至舰队中。 描述 否 容器舰队的相关描述信息。 单击“确定”,创建舰队。 后续步骤 将需要管理的集群添加至本小节中创建的容器舰队中,具体操作请参见步骤三:为容器舰队添加集群。 父主题: 快速创建和管理容器舰队
进行初步认识。 图1 UCS入门流程 进行必要的准备工作,请参见步骤一:准备工作。 创建容器舰队,请参见步骤二:创建容器舰队。 为容器舰队添加集群,请参见步骤三:为容器舰队添加集群。 管理多集群生命周期,请参见步骤四:管理多集群生命周期。 父主题: 快速创建和管理容器舰队
升级前请确保环境中所有主机处于正常运行状态,且升级过程中不能出现主机断电、断网等的情况。 升级过程中请不要执行指导步骤之外的其他操作,避免操作冲突导致升级变更失败。 升级过程中不能手工重启节点,否则可能导致升级异常。 登录UCS控制台,在左侧导航栏中选择“云原生服务中心”,单击“服务插件”页签。
步骤三:为容器舰队添加集群 您需要注册或纳管集群、为集群接入网络,以便将集群加入容器舰队进行管理。 UCS支持注册华为云集群、本地集群、附着集群、多云集群和伙伴云集群,本小节将以附着集群为例,以公网接入形式指导您快速添加一个Kubernetes集群至容器舰队。 获取KubeConfig文件
sidecar,已存在的Pod需要配合重启服务才能生效注入istio-proxy sidecar。 重启服务 Sidecar自动注入开启时,将立即重启未注入sidecar的服务负载以注入sidecar;Sidecar自动注入关闭时,将立即重启已注入sidecar的服务负载以取消sidecar注入。
升级前请确保环境中所有主机处于正常运行状态,且升级过程中不能出现主机断电、断网等的情况。 升级过程中请不要执行指导步骤之外的其他操作,避免操作冲突导致升级变更失败。 升级过程中不能手工重启节点,否则可能导致升级异常。 登录UCS控制台,在左侧导航栏中选择“云原生服务中心”,单击“服务插件”页签。