如何调用API 构造请求 认证鉴权 返回结果
自定义资源 自定义资源配置
监控GPU资源指标 监控GPU资源指标能够优化计算性能、快速定位故障并合理分配资源,从而提升GPU利用率、降低运维成本。通过Prometheus和Grafana,您可以实现对GPU资源的全面监测,精确捕捉资源使用情况。本文将对Prometheus和Grafana的配置流程进行详细介绍。
分,这样多个团队可以共用一个集群,使用的资源用Namespace划分开。 不同的Namespace下的资源名称可以相同,Kubernetes中大部分资源可以用Namespace划分,不过有些资源不行,例如Node、PV等,它们属于全局资源,不属于某一个Namespace,后面会逐步接触到。
API版本信息 查询API版本信息列表 父主题: API
es API。 单击“确定”。 查看CRD及其对应的资源 登录CCE控制台。 单击集群名称进入集群,在左侧选择“自定义资源”。 在自定义资源页面,查看CRD或CRD对应的资源对象。 查看CRD及其YAML 列表中列出了集群中所有CRD,以及对应的API组、API版本、资源作用范围
资源和成本规划 本文提供的成本预估费用仅供参考,资源的实际费用与用户所在区域相关,请以华为云管理控制台显示为准。 完成本实践所需的资源如下: 表1 资源和成本规划 资源 资源说明 数量 费用(元) 云容器引擎CCE 建议选择按需计费。 集群类型:CCE集群 集群版本:v1.25 集群规模:50节点
异构资源配置 GPU配置 GPU虚拟化:CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU
资源与成本规划 本文提供的成本预估费用仅供参考,资源的实际费用与用户所在区域相关,请以华为云管理控制台显示为准。 完成本实践所需的资源如下: 表1 资源和成本规划 资源 资源说明 数量 费用(元) 弹性云服务器ECS 建议选择按需计费。 虚拟机类型:通用计算增强型 节点规格:4核
APIServer视图 提供了Kubernetes核心组件APIServer主要监控视图,帮助您更好的监控APIServer的运行状态。主要包括APIServer组件的请求、资源、工作队列等相关指标。 指标说明 APIServer视图暴露的指标包括请求指标、工作队列指标和资源指标,具体说明如下:
节点池亲和性调度 如何减少节点资源碎片,提高集群资源利用率 集群中存在大作业(request资源量较大)和小作业(request资源量较少)混合提交并运行,希望小作业可以优先填满集群各节点的资源碎片,将空闲的节点资源优先预留给大作业运行,避免大作业由于节点资源不足长时间无法调度。 开启
集群外资源迁移 若您的集群不涉及表1中的集群外资源,或迁移后无需使用其他云服务进行资源替换,可忽略本章节内容。 容器镜像迁移 为保证集群迁移后容器镜像可正常拉取,提升容器部署效率,十分建议您将私有镜像迁移至容器镜像服务SWR。CCE配合SWR为您提供容器自动化交付流水线,采用并行
Kubernetes原生GPU资源配额,配置时limit和request配置相同 GPU虚拟化资源:显存 参数名 取值范围 默认值 是否允许修改 作用范围 volcano.sh/gpu-mem.128Mi 1-16384间整数 无 允许 - 虚拟化GPU显存资源,若配置limit和request相同,可独立配置
配。为了保证调度成功,资源申请值设置的很小,不能反馈负载资源需求,从而引发资源冲突。 基于如上考虑,云原生成本治理提供应用资源规格推荐能力。该能力基于负载的最新的历史资源指标数据,以容器为单位进行资源值推荐计算,可以满足用户合理规划资源的诉求。 实际配置资源的申请值或限制值时,可根据推荐值进行冗余设计,例如1
资源利用率优化调度 装箱调度(Binpack) 重调度(Descheduler) 节点池亲和性调度 负载感知调度 资源利用率优化调度配置案例 父主题: Volcano调度
用户访问集群API Server的方式有哪些? 当前CCE提供两种访问集群API Server的方式: 集群API方式:(推荐)集群API需要使用证书认证访问。直接连接集群API Server,适合大规模调用。 API网关方式:API网关采用token方式认证,需要使用账号信息获
请在迁移前提前清理原集群中异常的Pod资源。当Pod状态异常但是又挂载了PVC的资源时,在集群迁移后,PVC状态会处于pending状态。 请确保CCE侧集群中没有与被迁移集群侧相同的资源,因为Velero工具在检测到相同资源时,默认不进行恢复。 为确保集群迁移后容器镜像资源可以正常拉取,请将镜像资源迁移至容器镜像服务(SWR)。
guarantee:表示资源预留量,预留资源只可被该队列所使用,其他队列无法使用。 支持动态资源配额调整。 层级队列管理 支持多层级队列结构。 提供父子队列间的资源继承与隔离。 支持跨层级队列的资源共享与回收。 智能资源调度 资源借用:允许队列使用其他队列的空闲资源。 资源回收:当资源紧张时,优
集群删除失败:安全组中存在残留资源 CCE在删除集群时,会连接集群的kube-apiserver查询集群对接的周边资源信息,如Turbo集群对接的弹性网卡/弹性辅助网卡等,当CCE集群的状态为不可用,冻结,休眠等状态时,删除集群有可能会出现查询资源失败而导致集群删除失败的情况。 故障现象
响应参数 状态码:200 表4 响应Body参数 参数 参数类型 描述 kind String API类型,固定值“Addon”,该值不可修改。 apiVersion String API版本,固定值“v3”,该值不可修改。 metadata AddonMetadata object
您即将访问非华为云网站,请注意账号财产安全