检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
扩容时,本次需要扩容的节点数与已有节点数相加不可超过当前集群管理规模。 缩容时,本次需要缩容节点数不可超过已有节点数。 缩容操作可能导致与节点有绑定关系的资源(本地存储,指定调度节点的负载等)无法正常使用。请谨慎操作,避免对运行中的业务造成影响。 单击“确定”,即可完成节点池的扩缩容。 父主题:
本文主要介绍在CCE在升级集群时,如何查找插件升级失败的原因,并解决问题。 操作步骤 插件升级失败后,请优先进行重试。若重试不成功,则根据后续步骤排查问题。 在升级界面显示失败后,请退出集群升级页面,前往“插件中心”界面查看插件的详细状态。针对异常的插件,单击插件名称查看详情。 在插件运行实例的详情界面,单击“事件”查看异常实例的信息。
Kubernetes调度器可以发现集群中新创建且尚未被调度到节点上的Pod,并负责将未调度的Pod指派到一个合适的节点上运行。在同一个集群中可以使用多个不同的调度器,kube-scheduler调度器是Kubernetes社区提供的集群默认调度器,CCE同时还支持增强的Volcano调度器,提供了高性能任务
进入节点/opt/cloud/cce/kubernetes/kubelet/pki/目录。 备份节点上的证书文件kubelet-server-current.pem、kubelet-client-current.pem。 删除节点上残留的kubelet-server-*证书文件。 link_target="$(basename
”中找到集群上报的AOM实例,查看上述组件的指标。 图2 查看指标 自建Prometheus采集Master节点组件指标 如果您需要通过Prometheus采集Master节点组件指标,可通过以下指导进行配置。 集群版本需要v1.19及以上。 在集群中需安装自建的Promethe
查看集群总览页,在右边“连接信息”下证书认证一栏,单击“下载”。 图1 获取证书 在弹出的“证书获取”窗口中,根据系统提示选择证书的过期时间并下载集群X509证书。 下载的证书包含client.key、client.crt、ca.crt三个文件,请妥善保管您的证书,不要泄露。 集群中容器之间互访不需要证书。 使用
但在您使用集群前,还需要充分理解云容器引擎的安全责任边界,华为云无法限制您在服务托管范围外的行为,您需要为这部分的行为承担安全责任。详情请参见责任共担。 如何进行安全加固 登录CCE控制台。 在左侧导航栏中选择“集群管理”,单击要创建节点的集群进入集群控制台。 在集群控制台左侧导航
操作过程中可能存在非预期风险,请提前做好相关的数据备份。 退订包年/包月节点时,订单处理需要一定时间,在此期间节点处于不可用状态,预计5-10分钟后自动清理该节点。 删除节点会导致与节点关联的本地持久卷类型的PVC/PV数据丢失,无法恢复,且PVC/PV无法再正常使用。删除节点时使用了本地持久存储卷的Pod会从删
弹性网卡即虚拟网卡,您可以通过创建并配置弹性网卡,并将其附加到您的云服务器实例(包括弹性云服务器和裸金属服务器)上,实现灵活、高可用的网络方案配置。 弹性网卡类型 主弹性网卡:在创建云服务器实例时,随实例默认创建的弹性网卡称作主弹性网卡。主弹性网卡无法与实例进行解绑。 扩展弹性网
原因一:创建节点池时使用的密钥对被删除。 原因二:用户使用私有密钥对创建节点池,而其他用户无法使用该私有密钥对创建节点,导致节点池扩容失败。 解决方案: 对于原因一引起的扩容失败,您可以创建一个新的密钥对,并使用该密钥对创建新的节点池。 对于原因二引起的扩容失败,该节点池只能通过私有密钥对的创建者
本文将为您介绍与节点池管理相关的最佳实践,包括节点池创建、管理和弹性伸缩等方面,从而更好地满足业务需求。 场景分类 相关最佳实践 创建节点池相关实践 制作CCE节点自定义镜像 创建节点时执行安装前/后脚本 创建节点时使用OBS桶实现自定义脚本注入 选择合适的节点数据盘大小 节点池日常管理实践
Pod所在节点与需挂载的SFS Turbo文件系统间的网络不通。 检查PV中共享地址是否正确。 获取PV的YAML,查看spec.csi.volumeAttributes下的everest.io/share-export-location字段值即为共享地址,正确的共享地址是指定的SFS Turbo文件系统的共享路径。
业务上报nvidia版本和cuda版本不匹配? 容器中查看cuda的版本,执行如下命令: cat /usr/local/cuda/version.txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错
最新公告 以下为CCE发布的最新公告,请您关注。 序号 公告标题 公告类型 发布时间 1 Kubernetes安全漏洞公告(CVE-2024-10220) 漏洞公告 2024/12/04 2 Kubernetes安全漏洞公告(CVE-2024-9486,CVE-2024-9594)
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer
攻击者可以使用这一点导致拒绝服务(系统崩溃)或执行任意代码,在容器场景下拥有CAP_SYS_ADMIN权限的用户可导致容器逃逸到宿主机。目前已存在poc,但尚未发现已公开的利用代码。 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 资源管理错误 CVE-2022-0185
点。 建议您在新建节点时选择更加轻量、安全的Containerd运行时,同时将存量节点的容器运行时逐步迁移至Containerd,具体操作请参见将节点容器引擎从Docker迁移到Containerd。 Containerd和Docker的对比请参见容器引擎Containerd和Docker。
69之前或2.1.11之前的版本时,使用子目录功能时不能同时并发创建超过10个PVC。推荐使用everest 1.2.69及以上或2.1.11及以上的版本。 subpath类型的卷实际为SFS Turbo的子目录,对该类型的PVC进行扩容仅会调整PVC声明的资源范围,并不会调整SFS
io/ingress-bandwidth:Pod的入口带宽 kubernetes.io/egress-bandwidth:Pod的出口带宽 如果不设置这两个参数,则表示不限制带宽。 修改Pod出/入口带宽限速后,需要重启容器才可生效。由于独立创建的Pod(不通过工作负载管理)修改anno
创建弹性负载均衡ELB后,使用default命名空间创建80端口的http监听,在CCE中只允许在本命名空间下创建同一端口的其它ingress(实际转发策略可根据域名、service来区分);所以出现客户侧在其它命名空间无法创建相同端口的ingress的情况(会提示端口冲突)。 解决方法 可以使用y