检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
确认集群版本是否在1.21及以上 进入集群详情页查看。 升级集群版本,具体操作请参见升级集群。 确认集群网络类型是否支持underlay网络 参照表2进行排查。 参照表2进行设置。 排查网络是否存在网段冲突 进入对等连接详情页查看。 修改对等连接路由中的冲突网段。 父主题: 使用MCS
登录UCS控制台,在左侧导航栏中选择“容器智能分析”。 选择一个容器舰队或者未加入舰队的集群。 图1 选择舰队或未加入舰队的集群 单击“容器洞察 > 集群总览”页签查看已开启监控的集群,在需要修改配置的集群行单击“修改接入配置”。 修改完成后单击“确认接入”。 父主题: 为集群开启监控
服务授权 服务授权用来实现对网格中服务的访问控制功能,即判断一个请求是否允许发送到当前的服务。服务授权通过负载选择器Selector选择目标负载。认证的规则通过JWTRule来描述,定义如何匹配JWT令牌上的认证信息。 创建服务授权 支持YAML创建服务授权。 登录UCS控制台,在左侧导航栏中单击“服务网格”。
当前实例所有容器CPU限制值之和 ≥ 当前实例所有容器CPU申请值之和,节点的实际可用分配CPU量请在“集群管理”中对应集群的“节点管理”页面下查看。 内存配额: 表2 内存配额说明 参数 说明 内存申请 容器使用的最小内存需求,作为容器调度时资源分配的判断依赖。只有当节点上可分配内存总量
100。 图1 配置工作负载信息 配置其余信息,完成后单击“创建”。 工作负载创建成功后,您可以尝试验证GPU虚拟化的隔离能力。 登录容器查看容器被分配显存总量 kubectl exec -it gpu-app -- nvidia-smi 预期输出: Wed Apr 12 07:54:59
amd64.exe。 在image-migrator工具所在目录下执行./image-migrator-linux-amd64 -h,可以查看image-migrator工具的使用方法。 --auth:指定auth.json的路径,默认在image-migrator所在目录下。 --images:指定images
配额累计使用量包含系统默认创建的资源,如default命名空间下系统默认创建的Kubernetes服务(该服务可通过后端kubectl工具查看)等,故建议命名空间下的资源配额略大于实际期望值以去除系统默认创建资源的影响。 CPU(Core):限制命名空间下工作负载实例(Pod)能申请CPU资源的最大值,单位为“核”。
Namespace:是Kubernetes提供的隔离机制,用于给集群中的任何资源对象进行分类、筛选和管理。 要查询集群下所有的命名空间,可以使用如下命令: kubectl get ns Node:节点是组成容器集群的基本元素,可以为虚拟机或物理机。每个节点都包含运行Pod所需要的基本组件,包括Kubelet、Ku
当集群不满足约束条件时,界面会弹出报错信息,请按照提示修改,然后重新开通集群联邦。 开通集群联邦大约需要10分钟,请耐心等待。您可以单击集群联邦状态,查看详细的开通进度。开通成功后,容器舰队顶部的提示信息变为“集群联邦能力已开通 ,集群接入成功”。 添加集群 容器舰队开通集群联邦后,可以继续
使用云专线/VPN上报日志。 常见问题处理 插件中除log-operator外组件均未就绪,且出现异常事件“实例挂卷失败”。 解决方案:请查看log-operator日志,安装插件时,其余组件所需的配置文件需要log-operator生成,log-operator生成配置出错,会导致所偶遇组件无法正常启动。
当前实例所有容器CPU限制值之和 ≥ 当前实例所有容器CPU申请值之和,节点的实际可用分配CPU量请在“资源管理 > 节点管理”中对应节点的“可分配资源”列下查看“CPU: ** Core”。 内存配额: 表2 内存配额说明 参数 说明 内存申请 容器使用的最小内存需求,作为容器调度时资源分配的判断依赖。只有当节点上可分配内存总量
upgrade cluster [cluster name] 集群名称需要和创建本地集群时指定的名称一致,如果不确定名称可进集群内,使用命令查看: ./ucs-ctl get cluster node节点升级,node节点升级可以选择两种升级方式: 全量升级,全量升级指的是将集群内剩余节点全部升级,命令如下:
systemctl enable nvidia-fabricmanager systemctl start nvidia-fabricmanager 查看nvidia-fabricmanager服务状态。 systemctl status nvidia-fabricmanager 相关链接 GPU插件及驱动相关问题的排查思路
k插件,再删除)。 操作步骤 选择一个容器舰队或者未加入舰队的集群。 图1 选择舰队或未加入舰队的集群 单击“容器洞察 > 集群总览”页签查看已开启监控的集群,在需要关闭监控的集群行,单击“取消监控”。 在二次确认弹窗中单击“确认”,即可为集群关闭监控。 父主题: 为集群开启监控
如果您的集群中已安装符合基础规划的插件,您可以跳过此步骤。 更改驱动版本后,需要重启节点才能生效。 登录UCS控制台,单击集群名称进入集群,在左侧导航栏中选择“插件管理”,查看“已安装插件”中是否存在volcano插件与gpu-device-plugin插件。 若未安装volcano插件,请安装该插件,具体操作请参见volcano。
secret-example imagePullSecrets: - name: default-secret 环境变量查看 如果configmap-example和secret-example的内容如下。 $ kubectl get configmap configmap-example
secret-example imagePullSecrets: - name: default-secret 环境变量查看 如果configmap-example和secret-example的内容如下。 $ kubectl get configmap configmap-example
在注册多云集群时,您需要获取访问密钥AK/SK(Access Key ID/Secret Access Key),以便在AWS账户中创建与多云集群相关的资源(如EC2实例、安全组、弹性IP和负载均衡器等)。本文将为您提供获取访问密钥AK/SK的方法。 该密钥将被加密妥善保存,您无需担心信息泄露的风险。 使用AWS
资源配额足够: 表1 资源数量 资源类型 EC2 NAT VPC 子网 路由表 互联网网关 弹性IP 安全组 网络ACL ELB 网络接口 存储卷 数量 3台 3个 1个 6个 7个 1个 3个 5个 1个 1个 4个 6块 表2 EC2资源规格 节点类型 数量 CPU (Cores)
volumeWorkerNum:代表并发执行数据卷备份的工作数量,默认为3。 { "volumeWorkerNum": 3 } 单击“安装”后,返回“插件管理”页面查看已安装插件,插件状态为“运行中”,表明该插件已在当前集群中安装成功。 修改插件资源配额 登录集群控制台。 在左侧导航栏中单击“插件管理”,