检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
清理,但驱动程序Pod仍然存在并保持在“已停止”状态,直到最终进行垃圾回收或手动清理。在“已停止”状态下,驱动程序Pod不会使用任何计算或内存资源。 图1 提交机制的工作原理 在CCE上运行SparkPi例子 在执行Spark的机器上安装kubectl,详情请参见通过kubectl连接集群。
手动更新GPU节点的驱动版本为临时方案,适用于需要对某个节点进行差异化配置的场景,但节点重启后将自动重置为GPU插件配置中指定的版本。 如果需要稳定升级GPU节点驱动,推荐使用通过节点池升级节点的GPU驱动版本。 前提条件 需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 操作步骤 如
现的概率。 影响范围 受影响的集群版本: v1.15.11-r1 v.1.17.9-r0 只需对已有节点进行修复,新建节点默认无此问题。 升级过程需要重启auditd组件。 检查方法 以root用户登录node节点。 执行以下命令检查当前节点是否存在该问题: auditctl -l
通过Helm模板部署WordPress Helm 是一个 Kubernetes 应用程序包管理器,它可以简化部署、升级和管理 Kubernetes 应用程序。Helm 使用 Charts(一种定义 Kubernetes 资源的打包格式)来封装 Kubernetes 部署的所有元素
在集群中同时创建大量资源,apiserver压力过大,导致Master节点过载出现OOM。 解决方案 您可以扩容集群管理规模,集群管理规模越大,控制节点规格越高、性能也更佳。操作详情请参见变更集群规格。 如果您出现以上集群过载的情况,您也可以提交工单以获取技术支持。 排查项三:集群Secret落盘加密使用的KMS密钥是否有效
云原生日志采集插件支持基于CRD的日志采集策略,可以根据您配置的策略规则,对集群中的容器标准输出日志、容器文件日志、节点日志及Kubernetes事件日志进行采集与转发。 约束与限制 每个集群最多支持创建50条日志规则。 云原生日志采集插件不会采集.gz、.tar、.zip后缀类型的日志文件,且不支持采集日志文件的软链接。
集群配置 集群创建完成后,可修改的基本配置如下: 集群规模:集群规模为集群管理的最大节点数量,请根据实际业务需求进行调整,详情请参见变更集群规格。 集群版本 | 补丁版本:显示当前集群对应的Kubernetes版本号以及CCE的补丁版本号。 网络模型:显示当前集群的网络模型,不
(SDK)等工具构建容器,并创建Kubernetes资源训练其模型。模型训练完成后,用户还可以使用KFServing创建和部署用于推理的服务器。再结合pipeline(流水线)功能可实现端到端机器学习系统的自动化敏捷构建,实现AI领域的DevOps。 前提条件 已在CCE创建一个
本并发布应用到软件仓库。对于使用者而言,使用Helm后不用需要编写复杂的应用部署文件,可以以简单的方式在Kubernetes上查找、安装、升级、回滚、卸载应用程序。 Helm和Kubernetes之间的关系可以如下类比: Helm <–> Kubernetes Apt <–> Ubuntu
17 v1.19 v1.21 v1.23 新增beta检查项ScheduledEvent,支持通过metadata接口检测宿主机异常导致虚拟机进行冷热迁移事件。该检查项默认不开启。 0.8.10 1.16.3 v1.17 v1.19 v1.21 v1.23 新增ResolvConf配置文件检查。
如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 单个GPU卡最多虚拟化成20个GPU虚拟设备。 init容器不支持使用GPU虚拟化资源。 GPU虚拟化支持显存隔离、显存与算力隔离两种隔离模式。单个GPU卡仅支持调度同一种隔离模式的工作负载。 v1
高频常见问题 集群管理 CCE集群创建失败的原因与解决方法? 集群的管理规模和控制节点的数量有关系吗? 当集群状态为“不可用”时,如何排查解决? 节点及节点池 集群可用但节点状态为“不可用”如何解决? 如何收集CCE集群中节点的日志? thinpool磁盘空间耗尽导致容器或节点异常时,如何解决?
云原生监控插件兼容自建Prometheus 云原生监控插件兼容模式 若您已自建Prometheus,且您的Prometheus基于开源,未做深度定制、未与您的监控系统深度整合,建议您卸载自建Prometheus并直接使用云原生监控插件对您的集群进行监控,无需开启“兼容模式”。 卸载您自建的Pr
集群休眠(V3) 集群 hibernateCluster 集群唤醒(V3) 集群 awakeCluster 按需集群规格变更 集群 resizeCluster 包周期集群规格变更 集群 resizePeriodCluster 修改集群配置 集群 updateConfiguration 创建节点池
nginx imagePullSecrets: - name: default-secret 部署后可以看到Pod的IP与节点的IP相同,说明Pod直接使用了主机网络。 $ kubectl get pod -owide NAME
删除节点池,会先删除节点池中的节点,节点删除后,原有节点上的工作负载实例会自动迁移至其他节点池的可用节点。 约束与限制 对于包周期(包年/包月)预付费的节点池不能直接删除,请先移除节点池下全部的节点。 删除节点会导致与节点关联的本地持久存储卷类型的PVC/PV数据丢失,无法恢复,且PVC/PV无法再正常使
TRUE/FALSE false 允许 CCE Standard/CCE Turbo 开关启用时,相关弹性伸缩配置才生效。如果节点池中包含多个规格,您可以对每个规格是否支持弹性伸缩进行单独配置。 通过Console或者API直接扩缩节点池时不受相关参数约束。 节点数范围 节点池弹性伸缩上下限。
部署在同一节点上的不同业务容器之间存在带宽抢占,容易造成业务抖动。您可以通过对Pod配置带宽限制来解决这个问题。 功能规格 Pod带宽限制功能规格如下: 功能规格 容器隧道网络模型 VPC网络模型 云原生网络2.0模型 支持的集群版本 所有集群版本均支持 v1.19.10以上集群版本
在什么场景下设置工作负载生命周期中的“停止前处理”? 问题描述: 在什么场景下设置工作负载生命周期中的“停止前处理”? 问题解答: 服务的业务处理时间较长,在升级时,需要先等Pod中的业务处理完,才能kill该Pod,以保证业务不中断的场景。 父主题: 容器设置
PodSecurityPolicy配置 Pod安全策略(Pod Security Policy) 是集群级别的资源,它能够控制Pod规约中与安全性相关的各个方面。 PodSecurityPolicy对象定义了一组Pod运行时必须遵循的条件及相关字段的默认值,只有Pod满足这些条件才会被系统接受。