检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
TCP端口检查 执行命令检查 命令检查是一种强大的检查方式,该方式要求用户指定一个容器内的可执行命令,集群会周期性地在容器内执行该命令,如果命令的返回结果是0则检查成功,否则检查失败。 对于上面提到的TCP端口检查和HTTP请求检查,都可以通过执行命令检查的方式来替代: 对于TC
请到Kubernetes版本发布页面下载与集群版本对应的或者更新的kubectl。 安装和配置kubectl 登录集群控制台,在左侧导航栏中选择“资源管理 > 集群管理”,单击待连接集群下的“命令行工具 > kubectl”。 在集群详情页中的“kubectl”页签下,请参照界面中的提示信息完成集群连接。 您
可能存在风险: 工作负载中容器进程的WORKDIR为 /proc/self/fd/<num>。 图1 有安全风险的工作负载配置示例 工作负载的容器镜像中默认WORKDIR或启动命令包含 /proc/self/fd/<num>。 可通过以下命令查看容器镜像元数据: docker运行时执行:docker
adactl join命令不幂等,失败后再次执行会报错。 解决方案 请将集群从联邦中移出,然后执行kubectl get cluster命令,校验集群联邦中是否存在该集群。 若存在,请执行kubectl edit cluster clusterName命令,编辑YAML删除fin
ectl top命令),或者由集群中的控制器(例如:Horizontal Pod Autoscaler)使用来进行决策,具体的组件为Metrics Server。 Metrics Server是集群核心资源监控数据的聚合器,在UCS中Metrics Server的对应插件为“me
在列表中找到已启用策略中心功能的容器舰队或集群,单击舰队或集群名称,进入详情页面。 在“策略实施详情”中单击“策略实例”页签。 找到待操作的策略实例,单击操作列的“编辑”或“删除”,完成相关参数的修改,或者删除策略实例。 查看策略实施状态 在容器舰队或集群的策略详情页,可以查看策略实施详情和状
如何清理策略中心相关资源? 对于已启用策略中心功能的集群,在以下场景中,可能会存在资源残留情况: 集群连接中断时,停用策略中心 集群停用策略中心过程中,连接中断 集群连接中断后,注销集群 集群连接中断后,移出舰队 因此需要执行如下命令,清理残留资源: kubectl delete namespace
TCP 端口检查 执行命令检查 命令检查是一种强大的检查方式,该方式要求用户指定一个容器内的可执行命令,集群会周期性地在容器内执行该命令,如果命令的返回结果是0则检查成功,否则检查失败。 对于上面提到的TCP端口检查和HTTP请求检查,都可以通过执行命令检查的方式来替代: 对于TC
显存:显存值单位为Mi,需为正整数,若配置的显存超过单张GPU卡的显存,将会出现无法调度状况。 算力:算力值单位为%,需为5的倍数,且最大不超过100。 图1 配置工作负载信息 配置其余信息,完成后单击“创建”。 工作负载创建成功后,您可以尝试验证GPU虚拟化的隔离能力。 登录容器查看容器被分配显存总量
es提供的隔离机制,用于给集群中的任何资源对象进行分类、筛选和管理。 如果不同的资源对象放在不同的命名空间下,他们就会相互隔离。例如,获取所有Pod使用的命令是: kubectl get pod 这里的Pod是有命名空间的,默认为default。指定命名空间需使用如下命令: kubectl
于本地集群上的3个master节点上的证书文件、加解密物料、etcd数据等信息的备份,以保障UCS本地集群故障后的数据恢复。 约束与限制 无论是单master还是多master故障,节点IP须保持不变。 集群备份 本地备份 创建备份文件压缩包存放的目录。 执行备份命令: ./ucs-ctl
查看舰队总览 查看舰队总览。您可以选择一个容器舰队或未加入舰队的集群,查看所选范围内已开启监控的集群、以及集群中的节点、负载总览信息。 本小节操作指导均以查看容器舰队的总览信息为例,若您需要查看未加入舰队集群的总览信息,请在容器洞察页面选择“其他 > 未加入舰队集群”,查看全部未
配置其余信息,完成后,单击“创建工作负载”。返回无状态工作负载列表查看工作负载状态。 在工作负载列表中,待工作负载状态为“运行中”,工作负载创建成功。 通过kubectl命令行创建NPU应用 本节以创建无状态工作负载(Deployment)为例,说明使用kubectl命令创建训练任务的方法。 apiVersion:
单击服务名称即可查看服务详情,包括基本信息以及各集群的部署信息。 在服务详情页的部署集群栏中单击“查看YAML”,可查看各个集群中部署的服务实例YAML,并支持下载。 编辑YAML 单击服务名称后的“编辑YAML”,可查看并编辑当前服务的YAML文件。 更新 单击服务名称后的“更新”。
节点,此时仅提供master节点的升级命令。 其他可配置的flag请参照node节点升级命令说明。 master节点与组件升级命令说明 本地集群用户可以通过最新版本的本地集群命令行工具ucs-ctl来进行集群升级,对于管理组件和管理节点的升级,命令如下: ./ucs-ctl upgrade
下,即可获取清理脚本uninstall_node.sh。 将清理脚本拷贝到待清理的节点。 登录到待清理的节点上,执行以下命令进行清理操作: bash uninstall_node.sh 为了尽可能减少残留进程或者数据,清理脚本支持多次执行。 清理脚本执行完成后,重启节点。 重复执行上述操作,清理其他节点。
-fc %T /sys/fs/cgroup/查看cgroup版本为cgroup2fs,该问题根因为当前kubernetes版本cgroup v2暂未GA,需要进行cgroup降级。 操作步骤 修改“/etc/default/grub”文件的GRUB_CMDLINE_LINUX配置项,添加systemd
基础软件规划 本地集群节点的操作系统、内核版本等基础软件规划需要符合表1中的要求。 表1 基础软件规划 系统架构 系统类型 网络模型 操作系统版本 内核版本限制 x86 Ubuntu 22.04 Cilium 检查命令:cat /etc/lsb-release DISTRIB_DESCRIPTION="Ubuntu
“工作负载”页签:具体信息请参见查看集群内工作负载详情。 “Pod”页签:具体信息请参见查看集群内Pod详情。 “事件”页签:具体信息请参见查看集群内事件详情。 查看集群详情 集群详情页面提供了单个集群的监控情况,包含资源概况、资源消耗TOP统计和用量统计多维度的信息概况。通过集群监控您可以及时了解集群的资源使
ucs-ctl是管理UCS本地集群的命令行工具,在安装本地集群并使用ucs-ctl工具前,为防止您执行被篡改的ucs-ctl工具,请先进行工具的完整性校验。ucs-ctl的详细介绍请参见使用ucs-ctl命令行工具管理本地集群。 本地集群支持使用sha256校验文件来验证 ucsctl 文件的完整性。