检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
监控GPU资源 本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。 前提条件 完成GPU资源准备。 当前本地集群已创建GPU资源。 当前本地集群开启了监控能力。 GPU监控 登录UCS控制台,在左侧导航栏选择“容器智能分析”。 选择对应的集群并开启监控,详细操作请参照集群开启监控。
本地集群配置文件 本地集群配置文件为一个Cluster.yaml文件,是在UCS 控制台中自动生成,用于初始化本地集群的master节点。表1是该文件内各个字段的说明。 表1 命令 配置项 配置命令 # ssh登录master节点用户 USERNAME: root # ssh登录master节点密码
查看集群情况 查看集群情况流程 在“容器洞察 > 集群总览”页面的集群统计列表中,单击集群名称跳转至单个集群的智能分析页面。本页面分为五个页签,分别为: “集群”页签:具体信息请参见查看集群详情。 “节点”页签:具体信息请参见查看集群内节点详情。 “工作负载”页签:具体信息请参见查看集群内工作负载详情。
03、535.54.03版本的GPU驱动。 建议您使用CCE提供的驱动地址,以满足驱动版本的要求。 如果下载链接为公网地址,例如地址为nvidia官网地址https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470
为节点添加标签/污点 UCS支持为节点打上不同的标签,以定义节点的不同属性,通过这些标签,您可以快速地了解各个节点的特点。 污点(Taint)能够使节点排斥某些特定的Pod,从而避免将Pod调度到该节点上,通过添加污点,您可以实现各节点负载的合理分配。 节点标签使用场景 节点标签的主要使用场景有两类。
容器组 容器组(Pod)是Kubernetes中最小的可部署单元。一个Pod(容器组)包含了一个应用程序容器(某些情况下是多个容器)、存储资源、一个唯一的网络IP地址、以及一些确定容器该如何运行的选项。Pod容器组代表了Kubernetes中一个独立的应用程序运行实例,该实例可能
在已连通伙伴云网络的VPC中创建VPC终端节点(VPCEP)连通容器智能分析数据上报接收点,可选择已有私网接入点,当选择新建私网接入点时将会收取0.1元/小时的VPCEP资源费用。 创建私网接入点将会创建一个VPCEP终端节点和一个DNS内网域名,需保证主账号有相应资源的配额。另外,还需要确保页面选择的子网存在可用IP。
自动切流概述 为什么需要自动切流 MCI提供了一种跨集群的负载均衡和流量路由机制,提高了应用程序的可用性和可靠性。然而,当集群出现故障后,通过MCI分配到该集群上的请求将会失败。 UCS提供自动切流能力,可自动摘除故障集群上的流量,以进一步保障服务的可用性。自动切流能力的应用场景主要有:
已购买资源包,为什么仍然产生按需计费? 请按表1识别产生按需计费的原因,并重新选择正确的资源包或保证账户中的余额充足。 表1 排查思路 可能原因 处理措施 购买套餐包中集群类型与实际接入的集群类型不一致 购买所接入集群类型对应的套餐包 购买套餐包中集群规模小于实际接入的集群规模
NPU节点标签 创建NPU节点后,安装huawei-npu插件,需要给节点添加标签“accelerator/huawei-npu”,标签值可为空。 添加NPU节点标签 依次单击“本地集群>节点管理>选择节点>标签与污点管理”。 选择NPU节点,添加标签“accelerator/huawei-npu”,标签值可为空。
查看集群中节点 将集群接入UCS后,您可在集群控制台查看集群中的节点信息。 操作步骤 登录集群控制台。 在左侧导航栏中选择“节点管理”,查看集群中的节点信息。 单击操作列的“查看实例列表”,可查看运行在当前节点上的所有实例。 单击操作列的“事件”,可查看节点事件。 单击操作列的“更多
查看集群内Pod情况 如果您需要监控Pod的资源使用情况,可以前往容器洞察中的Pod页面查看。该页面提供了指定集群下所有Pod的综合信息,以及单个Pod的详细监控数据,包括CPU/内存使用率、网络流入/流出速率、磁盘使用率等。 页面中容器组、Pod以及实例是指同一个概念。 功能入口
Cilium概述 为什么需要Cilium Cilium是一种高性能、高可靠性的容器网络解决方案,它通过eBPF技术在Linux内核层面实现网络和安全通信。它支持多种传输层协议,例如TCP、UDP和HTTP,并提供了多种安全特性,例如应用层访问控制和服务网格支持。Cilium还支持
k8spsphostnamespace 基本信息 策略类型:安全 推荐级别:L3 生效资源类型:Pod 参数:无 作用 限制PodSecurityPolicy中的“hostPID”和“hostIPC”字段。 策略实例示例 以下策略实例展示了策略定义生效的资源类型。 apiVersion:
k8spspforbiddensysctls 基本信息 策略类型:安全 推荐级别:L3 生效资源类型:Pod 参数: allowedSysctls:数组 forbiddenSysctls:数组 作用 约束PodSecurityPolicy中的“sysctls”字段不能使用的name。
k8scontainerratios 基本信息 策略类型:合规 推荐级别:L1 生效资源类型:Pod 参数: ratio:字符串 cpuRatio:字符串 exemptImages:字符串数组 作用 限制容器的limit对request比例的最大值。 策略实例示例 限制容器的li
k8scontainerrequests 基本信息 策略类型:合规 推荐级别:L1 生效资源类型:Pod 参数: cpu:字符串 memory:字符串 exemptImages:字符串数组 作用 限制CPU和内存的Request必须设置且小于配置的最大值。 策略实例示例 示例配置了CPU和内存的最大Request。
k8scontainerlimits 基本信息 策略类型:合规 推荐级别:L1 生效资源类型:Pod 参数: cpu:字符串 memory:字符串 exemptImages:字符串数组 作用 限制容器必须设置CPU和内存Limit,并且小于设定的最大值。 策略实例示例 示例展示了
k8sblockwildcardingress 基本信息 策略类型:合规 推荐级别:L1 生效资源类型:Ingress 参数:无 作用 禁止ingress配置空白或通配符类型的hostname。 策略实例示例 示例展示了该策略定义的生效类型。 apiVersion: constraints
设置容器生命周期 操作场景 设置生命周期回调函数可在容器的特定阶段执行调用,比如容器在停止前希望执行某项操作,就可以设置相应的函数。 目前提供的生命周期回调函数如下所示: 启动命令:容器将会以该启动命令启动,请参见启动命令。 启动后处理:容器启动后触发,请参见启动后处理。 停止前