检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
PVC视图 提供了集群中的PVC监控视图,包含PV/PVC的状态、使用率情况。 支持以下PVC类型监控: 云硬盘类型的PVC(要求volumeMode参数值为Filesystem)支持使用量监控。 本地持久卷类型的PVC(要求集群中安装的Everest版本大于等于2.4.41)支持使用量监控。
Kubelet视图 Kubelet是运行在集群中每个节点上的代理程序,它提供了一些指标可以更好地了解集群的运行状态。 指标说明 Kubelet视图暴露的指标如下: 表1 Kubelet图表说明 视图名称 单位 说明 运行中Kubelet 个 集群运行中的kubelet的数量 运行中Pod
23.0 1.23.47 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.44 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容
主机视图 从主机视角出发,监控主机的资源占用与健康状态,查看主机的磁盘、文件系统等常用系统设备指标,帮助您掌控节点运行状况。 指标说明 主机视图暴露的指标具体说明如下: 图1 主机资源指标 表1 视图说明 图表名称 单位 说明 CPU使用率 百分比 每个CPU核的使用率 平均负载
XGPU视图 XGPU是虚拟化的GPU设备,从XGPU视图可以在节点、GPU卡、容器等多个角度监控XGPU虚拟化设备的显存、算力分配率,帮助您掌控GPU运行状况。 指标说明 图1 XGPU资源指标 表1 XGPU视图图表说明 图表名称 单位 说明 集群-XGPU设备显存使用率 百分比
配策略/会话保持 CCE集群支持创建裸金属节点(容器隧道网络) 支持AI加速型节点(搭载海思Ascend 310 AI处理器),适用于图像识别、视频处理、推理计算以及机器学习等场景 支持配置docker baseSize 支持命名空间亲和调度 支持节点数据盘划分用户空间 支持集群cpu管理策略
配策略/会话保持 CCE集群支持创建裸金属节点(容器隧道网络) 支持AI加速型节点(搭载海思Ascend 310 AI处理器),适用于图像识别、视频处理、推理计算以及机器学习等场景 支持配置docker baseSize 支持命名空间亲和调度 支持节点数据盘划分用户空间 支持集群cpu管理策略
Node视图 从节点视角出发,加入了节点资源、网络、磁盘等关键指标呈现,帮助您掌控节点运行状况。 指标说明 Node视图暴露的指标如下: 图1 Node资源指标 表1 Node资源指标说明 指标名称 单位 说明 节点CPU使用率 百分比 节点CPU使用率 CPURequests水位
io/ingress.class: "nginx"。如果集群中安装了多套NGINX Ingress控制器,需将nginx替换为自定义的控制器名称,用于识别Ingress对接的控制器实例。 独享型ELB规格必须支持网络型(TCP/UDP),且网络类型必须支持私网(有私有IP地址)。 运行Nginx
enable_fault_isolation 否 Bool 默认值:true true:插件识别GPU硬件故障或驱动程序问题,设置GPU卡不可用 enable_health_monitoring 否 Bool 默认值:true true:插件能够识别GPU硬件故障或驱动程序问题 enable_metrics_monitoring
默认数据盘空间分配说明 本章节将详细介绍节点数据盘空间分配的情况,以便您根据业务实际情况配置数据盘大小。 设置默认数据盘空间分配 v1.23.18-r0、v1.25.13-r0、v1.27.10-r0、v1.28.8-r0、v1.29.4-r0以下版本的集群中,节点会添加一块默认
CoreDNS视图 提供了负载域名解析的CoreDNS监控视图,包含请求、响应情况,以及缓存状况。 指标说明 CoreDNS视图暴露的指标如下: 图1 CoreDNS视图指标 表1 CoreDNS指标说明 指标名称 单位 说明 请求速率 个/秒 CoreDNS每秒请求个数 请求速率(记录类型)
若要保留差异部分配置,您可采用以下方法之一: (推荐)将“parameterSyncStrategy”参数配置为“inherit”,差异配置将自动继承,由系统自动解析、识别与继承差异参数。 将“parameterSyncStrategy”参数配置为“force”,您需手动填写差异配置,详情请参考CoreDNS域名解析。
场景。 AI加速型:AI加速型节点实例,搭载高性能、低功耗的海思Ascend 310 AI处理器,实现快速高效地处理推理和图像识别等工作,适用于图像识别、视频处理、推理计算以及机器学习等场景。 通用型(节点规格为4U8G) 系统盘类型 高IO:后端存储介质为SAS类型。 超高IO:后端存储介质为SSD类型。
启用企业主机安全服务(HSS) 企业主机安全服务(HSS)拥有主机管理、风险预防、入侵检测、高级防御、安全运营、网页防篡改功能,能够全面识别并管理主机中的信息资产,实时监测主机中的风险并阻止非法入侵行为。推荐启用HSS服务保护用户CCE集群下的主机。HSS服务以及使用方法请参考企业主机安全
/mnt/paas/kubernetes/kubelet 扩容磁盘。 将新增的磁盘容量加到容器引擎使用的dockersys逻辑卷上。 扩容物理卷PV,让LVM识别EVS新增的容量。其中/dev/sdb为dockersys逻辑卷所在的物理卷。 pvresize /dev/sdb 回显如下: Physical
准确的估算? 在计算成本时的Pod使用量取值为Pod申请量(Request)和实际使用量(used)中的最大值。基于普罗监控数据,可以清晰识别分钟级别的应用资源,进行成本计算。 节点中没有被分配的空闲成本,是如何处理的? 节点中的空闲成本不会被分摊到工作负载或者命名空间成本中,可
Prometheus Agent视图 Prometheus Agent是轻量化的容器监控模式,可以收集有关主机和应用程序的指标数据,并将数据上报并存储到AOM或三方监控平台。Prometheus Agent视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。
ugin。 图1 Volcano Scheduler工作流 Volcano Scheduler的工作流程如下: 客户端提交的Job被调度器识别到并缓存起来。 周期性开启会话,一个调度周期开始。 将没有被调度的Job发送到会话的待调度队列中。 遍历所有的待调度Job,按照定义的次序
23.0 1.23.47 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.44 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容