检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
自建K8s集群迁移方案概述 操作场景 随着容器化技术的发展,越来越多的企业使用容器代替了虚拟机完成应用的运行部署,而Kubernetes的发展让容器化的部署变得简单并且高效。目前许多企业选择自建Kubernetes集群,但是自建集群往往有着沉重的运维负担,需要运维人员自己配置管理系统和监控解决方案
吊销集群访问凭证 在多租户场景下,CCE会为每个用户生成一个独立的集群访问凭证(kubeconfig或X509证书),该凭证包含了用户身份及授权信息,以便其可以连接到相应的集群并执行授权范围内的操作。这种方式可以确保不同用户之间的隔离和安全性,同时也方便了管理和授权。但该凭证的有效时间一般为固定值
集群可用但节点状态为“不可用”如何解决? 当集群状态为“可用”,而集群中部分节点状态为“不可用”时,请参照本文提供的排查思路解决。 节点不可用检测机制说明 Kubernetes 节点发送的心跳确定每个节点的可用性,并在检测到故障时采取行动。检测的机制和间隔时间详细说明请参见心跳。
文件存储卷概述 CCE支持将弹性文件存储(SFS)创建的存储卷挂载到容器的某一路径下,以满足数据持久化需求,SFS存储卷适用于多读多写的持久化存储,适用场景包括:媒体处理、内容管理、大数据分析和分析工作负载程序等。 图1 CCE挂载文件存储卷 使用说明 符合标准文件协议:用户可以将文件系统挂载给服务器
CCE集群创建失败的原因与解决方法? 概述 本文主要介绍在CCE集群创建失败时,如何查找失败的原因,并解决问题。 详细信息 集群创建失败的原因包括: ntpd没安装或者安装失败、k8s组件预校验不过、磁盘分区错误等,目前只能尝试重新创建,定位方法请参见定位失败原因。 当前集群规模所需的底层资源不足
NVIDIA GPU驱动漏洞公告(CVE-2021-1056) 漏洞详情 NVIDIA公布了关于NVIDIA GPU驱动的一个漏洞CVE-2021-1056,该漏洞是存在于NVIDIA GPU驱动程序中与设备隔离相关的安全漏洞。当容器以非特权模式启动,攻击者利用这个漏洞,通过在容器中创建特殊的字符设备文件后
装箱调度(Binpack) 装箱调度(Binpack)是一种优化算法,以最小化资源使用量为目标,将资源合理地分配给每个任务,使所有资源都可以实现最大化的利用价值。在集群工作负载的调度过程中使用Binpack调度策略,调度器会优先将Pod调度到资源消耗较多的节点,减少各节点空闲资源碎片
使用kubectl对接已有文件存储 约束与限制 如下配置示例适用于Kubernetes 1.13及以下版本的集群。 操作步骤 登录SFS控制台,创建一个文件存储,记录文件存储的ID、共享路径和容量。 请参见通过kubectl连接集群,使用kubectl连接集群。 新建两个yaml文件
管理节点污点 污点(Taint)能够使节点排斥某些特定的Pod,从而避免Pod调度到该节点上。 通过控制台管理节点污点 在CCE控制台上同样可以管理节点的污点,且可以批量操作。 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签,
通过X509证书连接集群 操作场景 通过控制台获取集群证书,使用该证书可以访问Kubernetes集群。 操作步骤 登录CCE控制台,单击集群名称进入集群。 查看集群总览页,在右边“连接信息”下证书认证一栏,单击“下载”。 图1 获取证书 在弹出的“证书获取”窗口中,根据系统提示选择证书的过期时间并下载集群
告警中心概述 云原生告警是可观测性体系里面比较重要的一环。在云原生告警中,除了传统的CPU、内存等资源使用量的告警以外,还有容器重启等事件告警、应用访问失败等自定义的监控指标告警。 CCE的云原生告警能力是由AOM服务提供的,支持指标和事件的告警。同时,CCE集群详情中增加了告警中心能力
节点关机 操作场景 集群中的节点关机后,该节点以及节点内的业务将停止运行,且该节点将被设置为不可调度状态。节点关机前,请先确认您的正常业务运行将不受影响,请谨慎操作。 大部分节点关机后不再收费,特殊实例(包含本地硬盘,如磁盘增强型,超高I/O型等)关机后仍然正常收费,具体请参见ECS
续费包年/包月集群 客户购买包周期集群后,支持续费包周期资源。 操作步骤 本节以计费模式为“包年/包月”的集群为例,介绍如何为购买的集群续费。 包周期的集群超期未续费将会被系统删除,删除后集群内的节点以及运行的业务都将销毁,请务必及时续费或开通自动续费。 登录CCE控制台,在左侧导航栏中选择
配置网络策略(NetworkPolicy)限制Pod访问的对象 网络策略(NetworkPolicy)是Kubernetes设计用来限制Pod访问的对象,相当于从应用的层面构建了一道防火墙,进一步保证了网络安全。NetworkPolicy支持的能力取决于集群的网络插件的能力。 默认情况下
集群外部访问Ingress异常 Ingress基于七层的HTTP和HTTPS协议进行转发,是集群流量的入口,可以通过域名和路径对访问做到更细粒度的划分。集群在添加Ingress后,可能会出现无法正常访问的情况,本文提供添加Ingress失败或无法正常访问的通用排查思路,帮助您找到问题所在
CCE AI套件(NVIDIA GPU) 插件简介 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 约束与限制 下载的驱动必须是后缀为“.run”的文件。 仅支持Nvidia Tesla驱动,不支持GRID
命名空间权限(Kubernetes RBAC授权) 命名空间权限(kubernetes RBAC授权) 命名空间权限是基于Kubernetes RBAC能力的授权,通过权限设置可以让不同的用户或用户组拥有操作不同Kubernetes资源的权限。Kubernetes RBAC API
审计与日志 审计 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务后,系统将开始记录CCE资源的操作
docker审计日志量过大影响磁盘IO如何解决? 问题描述 部分集群版本的存量节点docker审计日志量较大,由于操作系统内核缺陷,会低概率出现IO卡住。该问题可通过优化审计日志规则,降低问题出现的概率。 影响范围 受影响的集群版本: v1.15.11-r1 v.1.17.9-r0
CCE支持等保三级认证吗? 云容器引擎CCE服务已通过等保三级认证,您可以在创建节点时进行安全加固,详情请参见如何进行安全加固。 但在您使用集群前,还需要充分理解云容器引擎的安全责任边界,华为云无法限制您在服务托管范围外的行为,您需要为这部分的行为承担安全责任。详情请参见责任共担。