检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
访问工作负载(例如Nginx工作负载),在浏览器中输入安全访问地址https://121.**.**.**:443进行验证。 其中,121.**.**.**为统一负载均衡实例的IP地址。 父主题: Nginx Ingress高级配置示例
工作负载 工作负载异常问题排查 容器设置 监控日志 调度策略 其他
工作负载异常:GPU节点部署服务报错 问题现象 在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在
工作负载异常:实例拉取镜像失败 问题定位 当工作负载状态显示“实例未就绪:Back-off pulling image "xxxxx"”,该状态下工作负载实例K8s事件名称为“实例拉取镜像失败”或“重新拉取镜像失败”。查看K8s事件的方法请参见Pod事件查看方法。 排查思路 根据
配置工作负载 安全运行时与普通运行时 设置时区同步 设置镜像拉取策略 使用第三方镜像 使用SWR企业版镜像仓库镜像 设置容器规格 设置容器生命周期 设置容器健康检查 设置环境变量 设置性能管理配置 设置工作负载升级策略 设置容忍策略 设置标签与注解 父主题: 工作负载
调度工作负载 工作负载调度策略概述 设置指定节点调度(nodeSelector) 设置节点亲和调度(nodeAffinity) 设置工作负载亲和/反亲和调度(podAffinity/podAntiAffinity) 父主题: 工作负载
工作负载异常:启动容器失败 问题定位 工作负载详情中,若事件中提示“启动容器失败”,请按照如下方式来初步排查原因: 登录异常工作负载所在的节点。 查看工作负载实例非正常退出的容器ID。 docker ps -a | grep $podName 查看退出容器的错误日志。 docker
工作负载异常:Init容器启动失败 问题现象 Pod的状态为Init:N/M。 Pod的状态为Init:Error。 Pod的状态为Init:CrashLoopBackOff。 问题原因 Pod运行状态为Init:N/M,说明该Pod包含M个Init容器,其中N个已经启动完成,但仍有M-N个Init容器未启动成功。
在线离线业务混部:支持集群内在离线作业混部以及节点CPU和内存资源超卖,提升集群整体资源利用率。 建议搭配使用 GPU加速云服务器 + 弹性负载均衡ELB + 对象存储服务OBS 图1 AI计算 父主题: 应用场景
设置容忍策略 容忍度(Toleration) 允许调度器将Pod调度至带有对应污点的节点上。 容忍度需要和节点污点相互配合,每个节点上都可以拥有一个或多个污点,对于未设置容忍度的Pod,调度器会根据节点上的污点效果进行选择性调度,可以用来避免Pod被分配到不合适的节点上。更多关于容忍度的使用示例请参见污点和容忍度。
Ingress配置HTTPS协议的后端服务。 创建一致性哈希负载均衡规则 表5 一致性哈希负载均衡注解 参数 类型 描述 nginx.ingress.kubernetes.io/upstream-hash-by String 为后端启用一致性哈希进行负载均衡,参数值支持nginx参数、文本值或任意组合,例如:
设置工作负载亲和/反亲和调度(podAffinity/podAntiAffinity) 工作负载亲和/反亲和调度是Kubernetes提供的任务调度方式,可以使用工作负载作为亲和对象,灵活地将新建的工作负载调度到与其相关或无关的节点上,可以有效地提高集群的利用率。 例如,通信频繁
ELB四层健康检查导致java报错:Connection reset by peer 完整错误信息 java.io.IOException: Connection reset by peer at sun.nio.ch.FileDispatcherImpl.read0(Native
设置标签与注解 Pod注解 CCE提供一些使用Pod的高级功能,这些功能使用时可以通过给YAML添加注解Annotation实现。具体的Annotation如下表所示。 表1 Pod Annotation 注解 说明 默认值 kubernetes.AOM.log.stdout 容
动配置到ELB侧(证书名以k8s_plb_default开头),由CCE自动创建的证书在ELB侧不可修改或删除。如果您需要修改证书,请在CCE侧更新对应的Secret。 使用ELB服务中的证书:直接使用ELB服务中创建的证书,无需手动配置集群Secret,且可以在ELB侧修改证书。
使用双栈集群时,请勿在ELB控制台修改ELB的协议版本。 ELB使用双栈仅支持CCE Turbo集群,且存在以下约束: 使用场景 独享型ELB 共享型ELB ELB型Ingress 支持ELB使用双栈。 七层独享型ELB和后端服务器之间仅支持使用IPv4协议通信,详情请参见独享型负载均衡支持的网
ker/Containerd。Pod重建后sock文件重新挂载,可恢复正常。 45 HTTPS类型负载均衡证书一致性检查异常处理 检查HTTPS类型负载均衡所使用的证书,是否在ELB服务侧被修改。 46 节点挂载检查异常处理 检查节点上默认挂载目录及软链接是否被手动挂载或修改。 47
工作负载异常问题排查 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态
设置环境变量 操作场景 环境变量是指容器运行环境中设定的一个变量,环境变量可以在工作负载部署后修改,为工作负载提供极大的灵活性。 CCE中设置的环境变量与Dockerfile中的“ENV”效果相同。 容器启动后,容器中的内容不应修改。如果修改配置项(例如将容器应用的密码、证书、环
工作负载异常:Pod一直处于Terminating状态 问题描述 查询某个命名空间下的工作负载时,偶现部分Pod(实例)一直处于Terminating 状态。 例如,查询aos命名空间下的Pod: #kubectl get pod -n aos NAME