检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看舰队总览 查看舰队总览。您可以选择一个容器舰队或未加入舰队的集群,查看所选范围内已开启监控的集群、以及集群中的节点、负载总览信息。 本小节操作指导均以查看容器舰队的总览信息为例,若您需要查看未加入舰队集群的总览信息,请在容器洞察页面选择“其他 > 未加入舰队集群”,查看全部未
查看集群情况 查看集群情况流程 在“容器洞察 > 集群总览”页面的集群统计列表中,单击集群名称跳转至单个集群的智能分析页面。本页面分为五个页签,分别为: “集群”页签:具体信息请参见查看集群详情。 “节点”页签:具体信息请参见查看集群内节点详情。 “工作负载”页签:具体信息请参见查看集群内工作负载详情。
Service名称:自定义填写,此处以zipkin为例。 访问类型:选择负载均衡。 选择器:单击“引用负载标签”,自动添加。 端口配置:配置容器端口和服务端口,此处以9411为例。 其他参数使用默认值即可。 预期结果: 设置完成后会在服务页面增加一条服务名称为zipkin的记录,如下:
防火墙的规划需符合表1中要求。 表1 防火墙规划 源设备 源IP 源端口 目的设备 目的IP 目的端口(侦听) 协议 端口说明 侦听端口是否可更改 认证方式 加密方式 ucsctl执行机 源设备所在节点IP ALL 所有节点 目的设备所在节点IP 22 TCP SSH 否 证书/用户名密码
demo命令,查看事件。 情况一,事件显示如下: 情况二,事件显示如下: 解决方案 若出现情况一中报错,原因为创建MCI对象时配置的监听器端口已被使用,您可以任选以下解决方案中的一种: 编辑创建失败的MCI对象,修改为未使用的监听器端口。 登录ELB控制台,删除对应端口的监听器。
昇腾芯片驱动安装 请确保昇腾芯片已插入到节点上,确认设备型号,并从昇腾官方社区下载设备驱动,以及参考驱动安装指导进行安装: 安装完成后,执行以下命令,可查看节点的/dev目录下所有的芯片设备。 ls -l /dev/davinci* 执行如下命令,查看驱动加载是否成功。 npu-smi info
效利用GPU设备资源。 前提条件 已完成GPU虚拟化资源准备。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 init容器不支持进行GPU虚拟化。 对于单张GPU卡: 最多虚拟化为20个GPU虚拟设备。 最多调度20个使用隔离能力的Pod。
查看集群中节点 将集群接入UCS后,您可在集群控制台查看集群中的节点信息。 操作步骤 登录集群控制台。 在左侧导航栏中选择“节点管理”,查看集群中的节点信息。 单击操作列的“查看实例列表”,可查看运行在当前节点上的所有实例。 单击操作列的“事件”,可查看节点事件。 单击操作列的“更多
出所选中的数据。导出的文件为“.xlsx”格式,文件命名中包含时间戳。 查看集群内Pod详情 在Pod列表中,单击需要查看详情的实例名称,进入该实例的详情页面,通过切换“概览”、“容器列表”和“监控”页签查看相应内容。 表1 Pod详情页面 词条 词条描述 概览 单击实例名称,进入实例概览页。
> 集群总览”页面的集群统计列表中,单击集群名称,选择“事件”。 查看集群内事件详情 事件页面分为两个页签:“概览”和“事件”。在“概览”页签中,您可以查看集群中事件的总数、趋势和排序信息;在“事件”页签中,可以查看事件的详细信息,包括事件名称、类型、内容,以及触发该事件的资源的相关信息等。
GPU虚拟化概述 UCS On Premises GPU采用xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户定义使用的GPU数量,提高GPU利用率。
xlsx”格式,文件命名中包含时间戳。 单击实例名称可以查看实例的详细监控数据。更多相关内容,请参见查看集群内Pod情况。 监控 在此处,您可以方便地查看节点在近1小时、近8小时、近24小时以及自定义时间段内各维度资源的使用情况。 如需查看更多监控信息,请单击“查看全部仪表盘”,跳转至“仪表盘”页面,相应指导请参见仪表盘。
xlsx”格式,文件命名中包含时间戳。 单击实例名称可以查看实例的详细监控数据。更多相关内容,请参见查看集群内Pod情况。 监控 在此处,您可以方便地查看工作负载在近1小时、近8小时、近24小时以及自定义时间段内各维度资源的使用情况。 如需查看更多监控信息,请单击“查看全部仪表盘”,跳转至“仪表盘”页面,相应指导请参见仪表盘。
gpu-device-plugin 插件简介 gpu-device-plugin插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 约束与限制 下载的驱动必须是后缀为“.run”的文件。 仅支持Nvidia Tesla驱动,不支持GRID驱动。
伙伴云集群管理流程 接入网络模式 对于伙伴云集群,各集群提供商或本地数据中心对于网络入方向的端口规则有差异,防止特定端口外的入站通信。因此UCS使用集群网络代理的连接方式,无需在防火墙上启用任何入方向端口,仅通过集群代理程序的方式在出方向与UCS服务建立会话。 伙伴云集群接入网络的方法有两种,具有不同的优点:
附着集群管理流程 接入网络模式 对于附着集群,各集群提供商或本地数据中心对于网络入方向的端口规则有差异,防止特定端口外的入站通信。因此UCS使用集群网络代理的连接方式,如图2所示,无需在防火墙上启用任何入方向端口,仅通过集群代理程序的方式在出方向与UCS服务建立会话。 附着集群接入网络的方法有两种,具有不同的优点:
型选择。 服务端口:容器端口映射到集群虚拟IP上的端口,用虚拟IP访问应用时使用,端口范围为1-65535,可任意指定。 容器端口:容器镜像中应用程序实际监听的端口,需用户确定。例如:nginx程序实际监听的端口为80。 节点端口:容器端口映射到节点私有IP上的端口,用私有IP访
集群--XGPU设备显存使用率 集群--XGPU设备算力使用率 节点--XGPU设备显存使用率 节点--XGPU设备算力使用率 节点--XGPU设备数量 节点--XGPU设备显存分配量 GPU卡--XGPU设备显存使用率 GPU卡--XGPU设备显存分配量 GPU卡--XGPU设备显存分配率
协议:TCP或UDP,请根据业务的协议类型选择。 服务端口:容器端口映射到集群虚拟IP上的端口,用虚拟IP访问应用时使用,端口范围为1-65535,可任意指定。 容器端口:容器镜像中应用程序实际监听的端口,需用户确定。例如:nginx程序实际监听的端口为80。 节点端口(仅节点访问设置):容器端口映射到节点私有IP
协议:TCP或UDP,请根据业务的协议类型选择。 服务端口:容器端口映射到集群虚拟IP上的端口,用虚拟IP访问应用时使用,端口范围为1-65535,可任意指定。 容器端口:容器镜像中应用程序实际监听的端口,需用户确定。例如:nginx程序实际监听的端口为80。 节点端口(仅节点访问设置):容器端口映射到节点私有IP