检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE AI套件(NVIDIA GPU) 插件介绍 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 是 object 插件基础配置参数。
CCE AI套件(NVIDIA GPU) 插件简介 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 约束与限制 下载的驱动必须是后缀为“.run”的文件。 仅支持Nvidia Tesla驱动,不支持GRID驱动。
本端子网 需要与本地网络实现互通的VPC网段。 本例中为VPC网络模型的集群,需要填写VPC网段(192.168.0.0/16)和容器网络的网段(172.56.0.0/16)。容器隧道网络模型和云原生2.0网络模型的集群仅需填写VPC网段即可。 描述 虚拟网关描述。 字符长度中文为0~64,英文为0~128。
container_path 否 String 容器里用于挂载Hiai library的路径 默认值:"/usr/local/HiAI_unused" host_path 否 String 主机上包含Hiai library的路径 默认值:"/usr/local/HiAI_unused"
kube-prometheus-stack插件实例调度失败如何解决? 问题现象 安装kube-prometheus-stack插件时, 插件状态一直处于“部分就绪”,查看插件的prometheus实例事件中提示“0/x nodes are available: x node(s) had volume
8b59d5884 annotations: kubernetes.io/extend-path-mode: '[{"containername":"container-0","name":"vol-156738843032165499","mountpath":"/tmp","ex
关于CCE集群版本的更新策略,请参考Kubernetes版本策略。 集群网络模型 云容器引擎支持以下几种网络模型,您可根据实际业务需求进行选择。 集群创建成功后,网络模型不可更改,请谨慎选择。 表2 网络模型对比 对比维度 容器隧道网络 VPC网络 云原生网络2.0 适用场景 对性
CCE集群(VPC、容器隧道网络模型):使用共享型和独享型ELB均支持获取源IP。 CCE Turbo集群(云原生网络2.0模型):使用独享型ELB时支持获取源IP;使用共享型ELB时,仅开启hostNetwork的工作负载支持获取源IP。 VPC、容器隧道网络模型 通过控制台开启获取源IP的步骤如下:
isRollbackable为true),且插件实例状态为running(运行中)、available(可用)、abnormal(不可用)、upgradeFailed(升级失败)、rollbackFailed(回滚失败)时支持回滚。 调用方法 请参见如何调用API。 URI POST /api/v3/addon
如何获取接口URI中参数 项目ID(project_id) project_id即项目ID,可以通过控制台或API接口获取,具体请参见获取项目ID。 集群ID(cluster_id) 登录CCE控制台,在左侧导航栏中选择“集群管理”。 单击所创建集群的名称,进入集群详情页面,获取集群ID。
系统日志 /var/log/messages 容器引擎日志 docker节点:/var/lib/docker containerd节点:/var/log/cce/containerd 表2 插件日志列表 插件日志名称 路径 everest插件日志 2.1.41及以上版本插件: ever
如果工作负载不需要使用集群内的CoreDNS,如何设置? 如何解读和修改Resolv.conf? 域名解析失败,如何处理? 更多 节点类 集群状态为“可用”,节点状态为“不可用”,如何处理? 无法远程登录节点,怎么办? 如何解决yum update升级操作系统导致容器网络不可用问题? 如何重置CCE集群中节点的密码?
不同VPC的弹性云服务器可通过VPC创建对等连接通信。 默认节点子网 | IPv4网段 显示集群的节点子网网段。 容器网络模型 显示集群的容器网络模型,集群创建成功后,网络模型不可更改。不同网络模型对比请参见容器网络模型对比。 节点默认安全组 显示集群节点默认安全组。您可以选择自定义的安全组作为集群默认的节点安
冻结或不可用的集群删除后如何清除残留资源 处于非运行状态(例如冻结、不可用状态)中的集群,由于无法获取集群中的PVC、Service、Ingress等资源,因此删除集群之后可能会残留网络及存储等资源,您需要前往资源所属服务手动删除。 弹性负载均衡资源 前往弹性负载均衡控制台。 通过集群使用的VPC
误卸载存储池的磁盘后如何恢复 存储池是Everest创建的一种Custom Resource,资源为nodelocalvolumes,该资源在正常情况下不建议手动操作。Everest每分钟会扫描空闲磁盘,并检查已添加进存储池的磁盘是否正常。 Everest使用LVM进行存储池管理
为实现跨VPC访问,不同网络模型的集群需要打通的网段不同。假设集群本端VPC网段为172.16.0.0/16,对端VPC网段为172.17.0.0/16,则两端路由表配置示例如下: 不同集群网络模型场景 两端VPC路由表配置 集群本端VPC路由表 对端VPC路由表 容器隧道网络模型 目的地址需添加对端VPC网段:172
如何删除Terminating状态的命名空间? Kubernetes中namespace有两种常见的状态,即Active和Terminating状态。当对应的命名空间下还存在运行的资源,但该命名空间被删除时才会出现Terminating状态,这种情况下只要等待Kubernetes
AI任务性能增强调度 公平调度(DRF) 组调度(Gang) 父主题: Volcano调度
metadata: labels: app: nginx spec: containers: - name: container-0 image: nginx:alpine resources:
当集群中包含GPU节点时,才能设置GPU配额,且集群中需安装CCE AI套件(NVIDIA GPU)插件。 不限制:表示不使用GPU。 独享:单个容器独享GPU。 共享:容器需要使用的GPU百分比,例如设置为10%,表示该容器需使用GPU资源的10%。 关于如何在集群中使用GPU,请参见使用Kubernetes默认GPU调度。