检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
工作负载异常:GPU节点部署服务报错 问题现象 在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在
资源。 解决方案 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 通过Pod内存监控查看内存增长曲线,确定异常出现时间。 根据监控、内存增长时间点、日志、进程名等信息,排查Pod内对应进程是否存在内存泄漏。
通过控制台创建 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”,在右上角单击“创建工作负载”。 配置工作负载的信息。 基本信息 负载类型:选择任务Job。工作负载类型的介绍请参见工作负载概述。 负载名称:填写工作负载的名称。请输入1到63个字符的字符串,可以包含小写英文字母、
本,而节点上已存在旧版镜像,但工作负载的imagePullPolicy设置为IfNotPresent,导致未重新拉取新版镜像仍然运行旧版镜像。 配置中的环境变量错误。例如将command拼写成commnd,仍然能够使用该YAML文件创建工作负载,但是容器在运行时,却不会使用您原本
如何设置容器内的DNS策略? CCE支持通过dnsPolicy标记每个Pod配置不同的DNS策略: None:表示空的DNS设置,这种方式一般用于想要自定义DNS配置的场景,而且,往往需要和dnsConfig配合一起使用达到自定义DNS的目的。 Default:从运行所在的节点继
设置Ingress参数。 本示例中展示配置黑名单/白名单访问策略的关键参数,其余参数可按需配置,详情请参见通过控制台创建ELB Ingress。 表1 关键参数说明 参数 配置说明 示例 名称 自定义Ingress名称。 ingress-test 负载均衡器 选择对接的ELB实例或自动创建ELB实例。可选择“共享型”或“独享型”。
工作负载异常:Pod一直处于Terminating状态 问题描述 查询某个命名空间下的工作负载时,偶现部分Pod(实例)一直处于Terminating 状态。 例如,查询aos命名空间下的Pod: #kubectl get pod -n aos NAME
单击集群名称进入集群,在左侧选择“工作负载”,在右上角单击“创建工作负载”。 在创建工作负载时,在“高级设置”中找到“调度策略”,选择节点亲和调度的策略类型,本示例中选择自定义亲和策略。创建工作负载的其余步骤详情请参见创建工作负载。 表1 调度策略类型 参数 参数说明 示例 节点亲和
增强型CPU管理策略 在Kubernetes默认提供的CPU管理策略中有none和static两种: none: 默认不开启CPU管理策略,表示现有的调度行为。 static:开启静态绑核的CPU管理策略,允许为节点上具有某些资源特征的 Pod(Guaranteed pod)赋予增强的
affinity/anti-affinity 表示Pod亲和/反亲和不满足。 解决方案: 在设置“工作负载间的亲和性”和“工作负载和节点的亲和性”时,需确保不要出现互斥情况,否则工作负载会部署失败。 若工作负载配置了节点亲和性,需确保亲和的节点标签中supportContainer设置为true
1及以上版本,并开启应用扩缩容优先级策略开关)。 当前扩缩容优先级功能默认支持对Deployment(也间接包括ReplicaSet)生效。若希望对第三方工作负载生效,可以通过高级配置指定,详情请参见配置第三方工作负载应用扩缩容优先级策略。 若要使用扩容调度优先级策略,需要将工作负载的spec.sc
您也可以根据需要为Pod添加其他标签,可用于设置工作负载亲和性与反亲和性调度。如下图,假设为工作负载(例如名称为APP1、APP2、APP3)定义了3个Pod标签:release、env、role。不同工作负载定义了不同的取值,分别为: APP 1:[release:al
Kubernetes版本:格式为X.Y.Z,继承社区版本策略,其中X对应社区Kubernetes的主要版本,Y对应社区Kubernetes的次要版本,Z对应社区Kubernetes的补丁版本,详情请参见社区Kubernetes版本策略。关于CCE支持的Kubernetes版本详情,请参见Kubernetes版本发布记录。
登录CCE控制台,单击集群名称进入集群。 选择左侧导航栏的“服务”,在右侧选择“路由”页签,单击ingress1路由对应的负载均衡器链接跳转到ELB页面。 切换至“监听器”页签,根据ingress1配置的端口,在负载均衡器页面找到对应的监听器,并单击监听器名称进入详情。 在监听器详情页面,找到服务器证书并记录。
贵阳一和亚太-新加坡支持使用CloudShell登录容器。 登录CCE控制台,单击集群名称进入集群。 在左侧选择“工作负载”,单击目标工作负载名称,查看工作负载的实例列表。 单击目标实例操作列中的“更多 > 远程登录”。 图1 登录容器 在弹出窗口中选择要登录的容器以及命令,然后单击“确定”。
令和参数,容器运行时将运行镜像制作时提供的默认的命令和参数,Docker将这两个字段定义为ENTRYPOINT和 CMD。 如果在创建工作负载时填写了容器的运行命令和参数,将会覆盖镜像构建时的默认命令ENTRYPOINT、CMD,规则如下: 表1 容器如何执行命令和参数 镜像 ENTRYPOINT
单击“创建工作负载”。 工作负载创建完成后,在工作负载列表中可查看到运行中的工作负载。 验证工作负载 工作负载创建完成后,可以通过访问工作负载验证部署是否成功。 在上面的部署中选择节点访问方式(NodePort),使用节点的“IP:端口”访问工作负载,如果能正常访问,则说明工作负载部署成功。
工作负载异常:Init容器启动失败 问题现象 Pod的状态为Init:N/M。 Pod的状态为Init:Error。 Pod的状态为Init:CrashLoopBackOff。 问题原因 Pod运行状态为Init:N/M,说明该Pod包含M个Init容器,其中N个已经启动完成,但仍有M-N个Init容器未启动成功。
无状态负载(Deployment) 无状态负载(Deployment) Pod是Kubernetes创建或部署的最小单位,但是Pod是被设计为相对短暂的一次性实体,Pod可以被驱逐(当节点资源不足时)、随着集群的节点崩溃而消失。Kubernetes提供了Controller(控制
在左侧导航栏中单击“策略”,切换至“节点伸缩策略”页签。 您可以查看弹性伸缩策略的配置。单击要策略后方的“更多 > 伸缩历史”,您可以查看该策略的伸缩记录。 删除节点弹性策略 在CCE控制台,单击集群名称进入集群。 在左侧导航栏中单击“策略”,切换至“节点弹性策略”页签,单击要删除的策略后方的“更多 > 删除”。 图2