检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
、everest-csi是用于对接存储服务、icagent是用于对接监控系统。
组件说明 表5 coredns组件 容器组件 说明 资源类型 coredns 该容器为提供集群域名解析服务的DNS服务器。
问题背景 客户已经购买并搭建了CCE集群,希望在公网上可以访问到CCE上部署的应用服务,目前最高效的方式是在ingress资源上注册该应用的Service路径,从而满足要求。
应用场景5:在线离线作业混合部署 当前很多业务有波峰和波谷,部署服务时,为了保证服务的性能和稳定性,通常会按照波峰时需要的资源申请,但是波峰的时间可能很短,这样在非波峰时段就有资源浪费。
CCE Turbo集群使用分布式云资源功能需要提前注册并部署智能边缘小站服务。
CCE是基于原生Kubernetes的云容器引擎服务,完全兼容Kubernetes社区原生版本,与社区最新版本保持紧密同步,完全兼容Kubernetes API和Kubectl。
如果备份资源量较大,请调整Velero及node-agent工具的cpu和内存资源(建议调整至1U1G及以上),请参考备份工具资源分配不足。 用于存放备份文件的对象存储桶需要是空桶。
NPU HCCS亲和预选调度 参数名 取值范围 默认值 是否允许修改 作用范围 cce-gpu-topology-predicate true/false true 允许 CCE Standard/CCE Turbo 一台AI服务器上共有8块NPU 1980芯片,4P * 2方式。
其他云服务资源 集群内使用的周边服务基础资源,包括集群创建和使用过程中自动创建或手动加入的相关云服务资源,如云服务器、云硬盘、对象存储、弹性公网IP、弹性负载均衡等。
漏洞修复策略 Kubernetes安全漏洞公告(CVE-2024-10220) Kubernetes安全漏洞公告(CVE-2024-9486,CVE-2024-9594) NVIDIA Container Toolkit容器逃逸漏洞公告(CVE-2024-0132) Linux CUPS服务
resourceID String 任务操作的资源ID。 resourceName String 任务操作的资源名称。 extendParam Map<String,String> 扩展参数。 subJobs Array of Job objects 子任务的列表。
2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在GPU服务容器中发现一些新增的文件core.*,在以前的部署中没有出现过。 问题定位 GPU插件的驱动版本较低,单独下载驱动安装后正常。 工作负载中未声明需要gpu资源。
组件说明 表2 metrics-server组件 容器组件 说明 资源类型 metrics-server 集群核心资源监控数据的聚合器,用于收集和聚合集群中通过Metrics API提供的资源使用指标。
资源利用率优化调度 装箱调度(Binpack) 重调度(Descheduler) 节点池亲和性调度 负载感知调度 资源利用率优化调度配置案例 父主题: Volcano调度
云容器引擎CCE配额只限制了集群个数,但是用户使用CCE时也会使用其他云服务,包括:弹性云服务器、云硬盘、虚拟私有云、弹性负载均衡、容器镜像服务等。 什么是配额? 为防止资源滥用,平台限定了各服务资源的配额,对用户的资源数量和容量做了限制。
集群视角的成本可视化最佳实践 应用现状 当前使用CCE时,默认是以CCE整个云服务的粒度体现计费信息,没有划分不同集群使用的成本。
功能介绍 原生Kubernetes调度器只能基于资源的申请值进行调度,然而Pod的真实资源使用率,往往与其所申请资源的Request/Limit差异很大,这直接导致了集群负载不均的问题: 集群中的部分节点,资源的真实使用率远低于资源申请值的分配率,却没有被调度更多的Pod,这造成了比较大的资源浪费
在云原生告警中,除了传统的CPU、内存等资源使用量的告警以外,还有容器重启等事件告警、应用访问失败等自定义的监控指标告警。 CCE的云原生告警能力是由AOM服务提供的,支持指标和事件的告警。同时,CCE集群详情中增加了告警中心能力,能支持快速配置资源等常用告警和告警查看。
但在一些少数对CoreDNS资源用量有要求的场景下,不能根据需要灵活配置。 CoreDNS官方文档:https://coredns.io/plugins/ 合理配置CoreDNS规格 登录CCE控制台,进入集群。
基本概念 镜像:Docker镜像是一个特殊的文件系统,除了提供容器运行时所需的程序、库、资源、配置等文件外,还包含了一些为运行时准备的配置参数(如匿名卷、环境变量、用户等)。镜像不包含任何动态数据,其内容在构建之后也不会被改变。