检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Fairness)是主资源公平调度策略,可以支持多种类型资源的公平分配,应用于大批量提交AI训练和大数据作业场景。DRF调度算法优先考虑集群中业务的吞吐量,适用单次AI训练、单次大数据计算以及查询等批处理小业务场景。 启用公平调度(DRF)后,可增强集群业务的吞吐量,提高业务运行性能。详情请参见公平调度(DRF)。
收集容器日志 通过云原生日志采集插件采集容器日志 通过ICAgent采集容器日志(不推荐) 父主题: 日志中心
监控运维配置 CCE为您提供监控应用及资源的能力,支持采集各项指标及事件等数据以分析应用健康状态,您可以通过“配置中心 > 监控运维配置”统一调整监控运维参数。 您需要开通监控中心,以使用监控运维配置的所有功能。 监控配置 采集配置 系统预置采集:可视化管理云原生监控插件的监控采集任务。详情请参见管理监控采集任务。
量免费日志采集额度,超过免费额度部分将产生费用(价格计算器)。 Kubernetes事件上报云日志服务(LTS) 根据不同的场景,开通Kubernetes事件采集的步骤如下: 集群未开通日志中心 集群已开通日志中心 开通日志中心时,可通过勾选采集Kubernetes事件,创建默认
云硬盘存储卷概述 为满足数据持久化的需求,CCE支持将云硬盘(EVS)创建的存储卷挂载到容器的某一路径下,当容器迁移时,挂载的云硬盘将一同迁移。通过云硬盘,可以将存储系统的远端文件目录挂载到容器中,数据卷中的数据将被永久保存,即使删除了容器,数据卷中的数据依然保存在存储系统中。 图1
控数据上报至AOM服务和监控数据上报至第三方监控平台至少开启其中之一。 原server模式:开启本地数据存储,同时支持开启监控数据上报至AOM服务或监控数据上报至第三方监控平台。 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到云原生监控插件,单击“安装”。
Flink是一个用于大规模数据处理的分布式流处理框架和计算引擎,可以处理有界(批处理)和无界(流处理)数据,提供低延迟、高吞吐量的实时数据处理能力,同时支持复杂事件处理和数据分析。在CCE集群中部署Flink,可以帮助您构建高效、可靠且灵活的数据处理系统,支持多样化的业务应用,并充分利用大数据环境中
当您想观测整个集群的资源使用情况和健康度时,可以在“监控中心 > 集群”页面查看,该页面提供了单个集群的监控情况,包含集群健康度、健康概况、资源消耗Top统计和数据面监控多维度的信息概况。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“集群”页签。 集群健康度
Ingress控制器。 步骤二:在日志中心采集NGINX Ingress控制器插件日志 根据不同的场景,开通NGINX Ingress控制器插件日志采集的步骤如下: 集群未开通日志中心 集群已开通日志中心 如果集群未开通日志中心,您可以在开通日志中心时通过勾选“采集插件日志(NGINX
存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量 集群-算力使用率 百分比 集群的算力使用率 计算公式:集群内容器算力使用总量/集群内算力总量
示为准): 弹性云服务器-虚拟机: 节点类型 节点规格 规格名称 x86节点 通用计算增强型 ac8、ac7、c7、c7e、c7n、c7t、c6s、c6、c6nl、c6x、c3、c3ne 通用计算型 s7、s7n、as7、s6、s6nl、s3、s2 通用入门型 t6 内存优化型
等。 集群网络配置 表1 集群网络配置参数说明 参数名称 参数说明 虚拟私有云 显示集群所在虚拟私有云。 虚拟私有云(Virtual Private Cloud,简称VPC)可以为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境。您可以自由配置VPC内
上一章节介绍的HostPath是一种持久化存储,但是HostPath的内容是存储在节点上,导致只适合读取。 如果要求Pod重新调度后仍然能使用之前读写过的数据,就只能使用网络存储了,网络存储种类非常多且有不同的使用方法,通常一个云服务提供商至少有块存储、文件存储、对象存储三种。Kubernete
您可查看集群控制节点数量,如果需要查看控制节点资源使用率等数据,请单击右上角“查看监控”,前往监控中心页面查看。 已安装插件 您可查看集群中已安装的插件,当集群中存在可以升级的插件时,请单击“前往升级”,在插件中心页面进行查看。 父主题: 配置中心
检查节点挂载块存储是否成功。 PV 数据卷删除失败 VolumeFailedDelete 次要 检查数据卷删除是否成功。 PV 挂载盘符失败 MountDeviceFailed 次要 检查数据卷挂盘是否成功。 PV 卸载数据卷失败 TearDownAtVolumeFailed 次要 检查数据卷卸载是否成功。
如果您需要监控Pod的资源使用情况,可以前往“监控中心 > Pod”页面查看。该页面提供了指定集群下所有Pod的综合信息,以及单个Pod的详细监控数据,包括CPU/内存使用率、网络流入/流出速率等。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“Pod”页签。
时采集探针所获取的数据,安装ICAgent是使用应用性能管理APM的前提。 接口约束 调用CCE接口创建集群之前,请检查是否已满足如下条件: 创建集群之前,您必须先确保已存在虚拟私有云,否则无法创建集群。若您已有虚拟私有云,可重复使用,无需重复创建。虚拟私有云为CCE集群提供一个
如果您需要监控节点的资源使用情况,可以前往“监控中心 > 节点”页面查看。该页面提供了指定集群下所有节点的综合信息,以及单个节点的详细监控数据,包括CPU/内存使用率、网络流入/流出速率、磁盘读/写IO等。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“节点”页签。
配置项与密钥 创建配置项 使用配置项 创建密钥 使用密钥 集群系统密钥说明
的总字节数。 网络发送丢包率:负载的所有Pod的容器在不同的时间段的发送丢失的数据包总量占发送的数据包总量的比例。 网络接收丢包率:负载的所有Pod的容器在不同的时间段的接收丢失的数据包总量占接收的数据包总量的比例。 Pod相关指标 Pod CPU使用率:负载的每个Pod在不同的时间段的CPU使用量除以它们的CPU