检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
端场景下甚至会引起集群内业务大面积解析失败。本文介绍Kubernetes集群中CoreDNS配置优化的最佳实践,帮助您避免此类问题。 解决方案 CoreDNS配置优化包含客户端优化及服务端优化。 在客户端,您可以通过优化域名解析请求来降低解析延迟,通过使用合适的容器镜像、节点DNS缓存NodeLocal
集群级别资源:clusterRole、clusterRoleBinding、ingressClass、validatingWebhookConfiguration 解决方案 使用kubectl连接集群。 查找NGINX Ingress相关资源。 className="nginx" namespace="kube-system"
spec.service)]}{.metadata.name}{"\n"}{end}' 若返回值非空,说明存在聚合API Server。 漏洞修复方案 除了升级之外,当前没有直接可用的缓解措施。集群管理员应注意控制权限,防止非受信人员通过APIService接口部署和控制聚合API Server。
--version 若显示无此命令,则不涉及该漏洞。 若显示nvidia-container-runtime版本低于1.16.2,则涉及该漏洞。 漏洞修复方案 在完成漏洞修复前,避免在集群中运行不可信的容器镜像。 CCE已发布新版本插件修复该漏洞,请关注CCE AI套件(NVIDIA GPU)版本发布记录。
Taints: key1=value1:NoSchedule ... 表1 存在资源压力的节点状况及解决方案 节点状况 节点污点 驱逐信号 描述 解决方案 MemoryPressure node.kubernetes.io/memory-pressure memory.available
协议,您需要打开其后端服务器的ICMP协议安全组规则。关于使用UDP协议健康检查的详细说明,请参见使用UDP协议有什么注意事项?。 操作步骤 登录CCE控制台,单击服务列表中的“网络 > 虚拟私有云 VPC”,在网络控制台单击“访问控制 > 安全组”。 在界面右侧的安全组列表中找
的集群大多都是构建在云上,云上可以直接调用接口添加删除节点,这就使得集群节点弹性伸缩变得非常方便。 Cluster Autoscaler是Kubernetes提供的集群节点弹性伸缩组件,根据Pod调度状态及资源使用情况对集群的节点进行自动扩容缩容。由于要调用云上接口实现弹性伸缩,
Pod视图 从Pod视角呈现Pod维度集群资源、网络、磁盘等监控情况,帮助您详细了解Pod的运行状态。 指标说明 Pod视图暴露的指标包括Pod资源指标、Pod网络指标和Pod磁盘指标,具体说明如下: 图1 Pod资源指标 表1 Pod资源指标说明 指标名称 单位 说明 容器数 个
由于不同插件支持的配置参数不同,详细步骤请参见插件章节。 设置完插件参数后,单击“确定”。 升级 将插件升级至新版。 登录CCE控制台,单击集群名称进入集群,在左侧导航栏选择“插件中心”。 如存在可升级的插件,该插件将提供“升级”按钮。 单击“升级”。由于不同插件支持的配置参数不同,详细步骤请参见插件章节。
中”,创建Pod卡在“创建中”。 可能原因 后端文件存储被删除,导致无法访问挂载点。 节点与文件存储间网络异常,导致无法访问挂载点。 解决方案 登录挂载文件存储的节点,执行如下命令找到文件存储挂载路径。 findmnt 挂载点路径示例:/mnt/paas/kubernetes/k
19.6、1.20.7、1.21.6、1.22.3、1.23.2、1.24.0。 CCE集群未使用CRI-O,因此不受此漏洞影响。 漏洞修复方案 1.19、1.20版本CRI-O,将manage_ns_lifecycle设置为false, 由OCI运行时配置sysctl。 创建Po
IAM服务出现区域性故障,且故障期间集群中的IAM临时访问密钥发生过期。 集群内工作负载新建或更新等涉及Pod启动,且需要对接存储卷挂载、负载均衡等功能。 修复方案 请您关注补丁版本发布记录,及时将集群升级至目标版本。已EOS集群版本请升级到在维版本进行修复。 目标集群版本: 1.21版本(于2024/04/30
监控中心开通失败,插件状态异常。 解决方案:请前往“插件管理”页面查看已安装插件列表,单击云原生监控插件名称,展开实例列表,检查状态为异常的Pod的事件,根据界面报错信息排查异常原因。 图4 插件状态异常 成功进入监控中心页面,但页面数据为空。 解决方案: 请前往“插件中心”页面查看已
LoadBalancer类型Service的方式对外提供访问。应用更新或升级时,Deployment会创建新的Pod并逐步替换旧的Pod,这个过程中可能会导致服务中断。 解决方案 避免服务中断可以从Deployment和Service两类资源入手: Deployment可以采用滚动升级的升级方式,为对各个实例逐个进
kubelet v1.18.0~v1.18.3 kubelet v1.17.0~v1.17.6 kubelet<v1.16.11 漏洞修复方案 修改主机内核参数配置net.ipv6.conf.all.accept_ra值为0,以拒绝接收IPv6路由发布。 业务容器结合使用TLS和适当的证书验证,防止中间人欺骗。
度到GPU/NPU节点运行,于是可能会出现GPU/NPU节点的CPU、内存资源被普通工作负载占用的情况,导致GPU/NPU资源闲置。 解决方案 在使用GPU/NPU节点时,可以为其添加污点,并通过工作负载容忍度设置,避免非GPU/NPU工作负载调度到GPU/NPU节点上。 GPU
ss应用的镜像版本是否小于1.2.1 2. 使用CCE提供的nginx-ingress插件,判断插件版本号是否小于等于2.1.0 漏洞修复方案 1. 升级ingress-nginx版本至1.2.1; 2. 如果您正在运行 v1.2.0 (gcr.io/k8s-staging-in
容易。本节介绍一个Kubeflow官方的Tensorflow训练范例,您可参考TensorFlow Training (TFJob)获取更详细的信息。 创建MNIST示例 部署TFJob资源以开始训练。 创建tf-mnist.yaml文件,示例如下: apiVersion: "kubeflow
云容器引擎-成长地图 | 华为云 云容器引擎 云容器引擎(Cloud Container Engine,简称CCE)提供高度可扩展的、高性能的企业级Kubernetes集群。借助云容器引擎,您可以在华为云上轻松部署、管理和扩展容器化应用程序。 图说云容器 了解Kubernetes
node.cloudprovider.kubernetes.io/uninitialized:如果 kubelet 启动时指定了一个“外部”云平台驱动, 它将给当前节点添加一个污点将其标志为不可用。在 cloud-controller-manager 的一个控制器初始化这个节点后,kubelet