GPU虚拟化多卡均分调度 在AI训练、推理和科学计算中,单张GPU常因算力或显存不足无法满足需求,因此需要多张GPU卡协同工作。然而,使用多张GPU卡协同工作时,直接分配整张GPU可能导致资源浪费,尤其是当任务仅需使用部分显存或算力时。GPU虚拟化的多卡均分调度功能允许任务跨多张
Ingress 为什么需要Ingress Service是基于四层TCP和UDP协议转发的,而Ingress可以基于七层的HTTP和HTTPS协议转发,可以通过域名和路径做到更细粒度的划分,如下图所示。 图1 Ingress-Service Ingress工作机制 要想使用Ing
全面修复Kubernetes权限许可和访问控制漏洞公告(CVE-2018-1002105) 漏洞详情 近日,Kubernetes社区发现安全漏洞CVE-2018-1002105。通过伪造请求,Kubernetes用户可以在已建立的API Server连接上提权访问后端服务,华为云容器服务已在第一时间完成全面修复。
创建容器工作负载 在本章节中,您将会把应用部署到CCE中。首次使用CCE时,您需要创建一个初始集群,并添加一个节点。 应用镜像上传到容器镜像服务后,部署容器应用的方式都是基本类似的。不同点在于是否需要设置环境变量,是否需要使用云存储,这些也是和业务直接相关。 使用云服务 云容器引
云原生日志采集插件 插件简介 云原生日志采集插件(原名log-agent)是基于开源fluent-bit和opentelemetry构建的云原生日志、K8s事件采集插件。log-agent支持基于CRD的日志采集策略,可以根据您配置的策略规则,对集群中的容器标准输出日志、容器文件
通过静态存储卷使用专属存储 CCE支持使用已有的专属存储创建存储卷(PersistentVolume)。创建成功后,通过创建相应的PersistentVolumeClaim绑定当前PersistentVolume使用。适用于已有底层存储的场景。 前提条件 您已经创建好一个集群,集群版本满足v1
自定义资源配置 自定义资源版本 自定义资源版本 参数名 取值范围 默认值 是否允许修改 作用范围 apiVersion 无 无 允许 CCE Standard/CCE Turbo 自定义资源是kubernetes 1.17新增的无需改变代码就可以扩展 Kubernetes API
开启云原生混部 前提条件 已创建一个CCE Standard集群或CCE Turbo集群,且版本满足以下要求: v1.23集群:v1.23.9-r0及以上 v1.25集群:v1.25.4-r0及以上 集群中已安装1.10.0及以上版本的Volcano插件。 约束与限制 开启云原生
(停止维护)Kubernetes 1.21版本说明 云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.21版本所做的变更说明。 资源变更与弃用 社区1.21 ReleaseNotes CronJob现在已毕业到稳定状态,版本号变为batch/v1。
(停止维护)Kubernetes 1.21版本说明 云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.21版本所做的变更说明。 资源变更与弃用 社区1.21 ReleaseNotes CronJob现在已达到稳定状态,版本号变为batch/v1。
Pod:Kubernetes中的最小调度对象 容器组(Pod) 容器组(Pod)是Kubernetes创建或部署的最小单位。一个Pod封装一个或多个容器(Container)、存储资源(Volume)、一个独立的网络IP以及管理控制容器运行方式的策略选项。 Pod使用主要分为两种方式:
云原生观测委托权限说明 由于云原生观测相关的功能在运行中对监控、告警、通知服务等各类云服务资源都存在依赖关系,因此当您首次使用云原生观测相关的功能时,系统将自动请求获取当前区域下的云资源权限,从而更好地为您提供服务。 为了最小化授权,CCE服务进行了一次权限细粒度化改造,将由系统
设置节点亲和调度(nodeAffinity) Kubernetes在调度工作负载时支持将节点作为亲和对象,将工作负载调度至具有指定标签和标签值的节点上。例如,某些节点支持使用GPU算力,则可以使用节点亲和调度,确保高性能计算的Pod最终运行在GPU节点上。 配置节点亲和调度策略
节点预留资源策略说明 节点的部分资源需要运行一些必要的Kubernetes系统组件和Kubernetes系统资源,使该节点可作为您的集群的一部分。 因此,您的节点资源总量与节点在Kubernetes中的可分配资源之间会存在差异。节点的规格越大,在节点上部署的容器可能会越多,所以K
为Nginx Ingress配置GRPC协议的后端服务 本文介绍如何使用Nginx Ingress将流量路由到gRPC后端服务。 gRPC介绍 gRPC是一种高性能、通用的RPC开源软件框架,使用Protocol Buffer作为其接口定义语言(IDL)以及底层消息交换格式。同时
集群升级前检查 功能介绍 集群升级前检查 调用方法 请参见如何调用API。 URI POST /api/v3/projects/{project_id}/clusters/{cluster_id}/operation/precheck 表1 路径参数 参数 是否必选 参数类型 描述
GPU故障处理 在Kubernetes的环境中,GPU资源的管理复杂度高、故障诊断和恢复难度大,且宕机成本高。当某个GPU资源出现故障时,CCE集群会迅速上报,并根据事件信息提供单GPU故障后自动隔离功能,此时其他正常的GPU可以继续提供服务,尽可能减少业务上的损失。本文将介绍G
配置节点故障检测策略 节点故障检查功能依赖node-problem-detector(简称:npd),npd是一款集群节点监控插件,插件实例会运行在每个节点上。本文介绍如何开启节点故障检测能力。 前提条件 集群中已安装CCE节点故障检测插件。 开启节点故障检测 登录CCE控制台,单击集群名称进入集群。
节点操作系统 集群版本与操作系统对应关系 如下为当前已经发布的集群版本与操作系统版本的对应关系,请参考: 表1 弹性云服务器-虚拟机节点操作系统 操作系统 集群版本 CCE Standard集群 CCE Turbo集群 最新内核信息 VPC网络模型 容器隧道网络模型 云原生网络2
为Nginx Ingress配置HTTPS证书 Ingress支持配置HTTPS证书以提供安全服务。 请参见通过kubectl连接集群,使用kubectl连接集群。 Ingress支持使用kubernetes.io/tls和IngressTLS两种TLS密钥类型,此处以Ingre
您即将访问非华为云网站,请注意账号财产安全