检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过kubectl连接集群 操作场景 本文将以CCE Standard集群为例,介绍如何通过kubectl连接CCE集群。 权限说明 kubectl访问CCE集群是通过集群上生成的配置文件(kubeconfig)进行认证,kubeconfig文件内包含用户信息,CCE根据用户信息
若工作负载需要被外网访问,请确保集群中至少有一个节点已绑定弹性IP,或已创建负载均衡实例。 单个实例(Pod)内如果有多个容器,请确保容器使用的端口不冲突 ,否则部署会失败。 通过控制台创建 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”,在右上角单击“创建工作负载”。 配置工作负载的信息。
最后到生产环境的过程。这个过程中不同环境部署的工作负载相同,只是在逻辑上进行了定义。分为两种做法: 分别创建不同集群。 不同集群之间,资源不能共享。同时,不同环境中的服务互访需要通过负载均衡才能实现。 不同环境创建对应命名空间。 同个命名空间下,通过服务名称(Service na
在NodePort与内核net.ipv4.ip_local_port_range范围有冲突的情况下,可能会导致偶发的TCP无法连接的情况,导致健康检查失败、业务异常等问题。升级前,请确保集群没有NodePort端口与任意节点net.ipv4.ip_local_port_rang
在NodePort与内核net.ipv4.ip_local_port_range范围有冲突的情况下,可能会导致偶发的TCP无法连接的情况,导致健康检查失败、业务异常等问题。升级前,请确保集群没有NodePort端口与任意节点net.ipv4.ip_local_port_rang
通过CCE配置自定义告警 当默认的告警规则无法满足您的述求时,可以创建自定义告警规则。通过在CCE中创建告警规则,您可以及时了解集群中各种资源是否存在异常。 添加指标类告警示例 基于Prometheus指标的阈值告警规则,指标告警规则依赖开通监控中心,请前往监控中心一键开通。详情请参见开通监控中心。
模板格式不正确,无法删除模板实例? 问题现象 若上传的模板中包含不正确或者不兼容的资源,会导致安装模板失败,类似下图: 此时模板实例无法正常工作。如果您尝试在界面上删除,可能会出现deletion failed的报错,模板实例仍在列表中: 解决方法 您可以使用kubectl命令删除残留的模板实例。
命名空间 命名空间因APIService对象访问失败无法删除 如何删除Terminating状态的命名空间?
跨云Harbor同步镜像至华为云SWR 场景描述 部分客户存在多云场景,并且使用某一家云上的自建Harbor作为镜像仓库。跨云Harbor同步镜像至SWR存在两种场景: Harbor可以通过公网访问SWR,配置方法参见公网访问场景。 通过专线打通Harbor到VPC间的网络,使用
常时,如何解决? 纳管节点时失败,报错“安装节点失败”如何解决? 工作负载 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:Pod一直处于Terminating状态 工作负载异常:实例驱逐异常(Evicted)
ELB Ingress高级配置示例 为ELB Ingress配置HTTPS证书 更新ELB Ingress的HTTPS证书 为ELB Ingress配置服务器名称指示(SNI) 为ELB Ingress配置多个转发策略 为ELB Ingress配置HTTP/2 为ELB Ingress配置HTTPS协议的后端服务
域名DNS CCE集群内域名解析失败,如何定位处理? 为什么CCE集群的容器无法通过DNS解析? 为什么修改子网DNS配置后,无法解析租户区域名? 解析外部域名很慢或超时,如何优化配置? 如何设置容器内的DNS策略?
问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --rebuilddb 问题场景二:systemctl status命令执行失败 检查到节点systemctl
installFailed:安装失败,表示插件安装失败,需要卸载后重新安装。 upgrading:升级中,表示插件正在更新中。 upgradeFailed:升级失败,表示插件升级失败,可重试升级或卸载后重新安装。 deleting:删除中,表示插件正在删除中。 deleteFailed:删除失败,表示插件删除失败,可重试卸载。
namespace will automatically be purged by the system. 依然无法删除该命名空间。 大多数情况下,命名空间下的资源无法强制删除,您可以使用原生接口进行删除。 获取namespace的详情信息。 $ kubectl get ns rdbms
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer
轮转证书文件数量检查 检查项内容 检查您节点上的证书数量过多(>1000),由于升级过程中会批量处理证书文件,证书文件过多可能导致节点升级过慢,节点上Pod被驱逐等。 解决方案 方案一:优先建议您重置节点,详情请参考重置节点。 方案二:修复节点上证书轮转异常问题。 进入节点/op
Nginx Ingress高级配置示例 为Nginx Ingress配置HTTPS证书 为Nginx Ingress配置重定向规则 为Nginx Ingress配置URL重写规则 为Nginx Ingress配置HTTPS协议的后端服务 为Nginx Ingress配置GRPC协议的后端服务
存活探针 参数名 取值范围 默认值 是否允许修改 作用范围 LivenessProbe 无 无 允许 - 指示容器是否正在运行。如果存活态探测失败,则 kubelet 会终止容器, 并且容器将根据其重启策略决定未来。如果容器不提供存活探针, 则默认状态为 Success。 就绪探针 参数名
参数的匹配来选择数据盘,避免了盘符匹配失败导致的节点创建、重置、迁移、纳管失败问题(例如当创建节点时NodeExtendParam字段中DockerLVMConfigOverride.diskType参数设置为evs,C7机型的节点会创建失败)。 解决方案 本文对节点创建中sto