-
节点池一直在扩容中但“操作记录”里为何没有创建节点的记录? - 云容器引擎 CCE
问题现象 节点池的状态一直处于“扩容中”,但是“操作记录”里面没有看到有对应创建节点的记录。 原因排查: 检查如下问题并修复: 租户是否欠费。 查看节点池配置的规格是否资源不足。 租户的ECS或内存配额是否不足。 如果一次创建节点太多,可能会出现租户的ECS容量校验不过的情况发生。 解决方案:
-
通过节点池升级节点的GPU驱动版本 - 云容器引擎 CCE
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控制升级。
-
CCE推荐的GPU驱动版本列表 - 云容器引擎 CCE
如果您需要安装最新版本的GPU驱动,请将您的GPU插件升级到最新版本。 表1 GPU驱动支持列表 GPU型号 支持集群类型 机型规格 操作系统 Huawei Cloud EulerOS 2.0(支持GPU虚拟化) Ubuntu 22.04 CentOS Linux release 7.6 EulerOS
-
节点池异常状态排查 - 云容器引擎 CCE
节点池绑定的云服务器组不存在,可能由于用户手动删除了云服务器组导致。 请登录CCE控制台,在左侧导航栏中单击“节点管理”,并单击节点池名称,在“总览”页面查看展开高级配置,查看所属云服务器组。 登录ECS控制台,在左侧导航栏中单击“弹性云服务器 > 云服务器组”,确认云服务器组是否存在。 如果云服务器组已
-
Caffe分类范例 - 云容器引擎 CCE
BS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker logs {容器id}查看归类结果,可以看到结果:tabby cat。 使用GPU 创建一个普通job,镜像输入第三方镜像bvlc/caffe:gpu,设置对应的容器规格。
-
停止计费 - 云容器引擎 CCE
源ID。 图1 复制资源ID 登录CCE控制台,选择集群所在的区域,在筛选条件中选择“集群ID”,并输入2中复制的资源ID即可查找到该资源。 图2 查找资源 单击集群右上角的按钮,对集群执行删除操作。 按需计费资源删除后,可能还会存在账单信息,因为系统通常会在使用后1个小时内对上
-
Solution as Code一键式部署类最佳实践 - 云容器引擎 CCE
统的容器化改造。 CCE、ELB、EIP 快速构建云原生订单管理系统 该方案可帮助您在华为云云容器引擎上快速搭建订单管理系统。 CCE、RDS、RabbitMQ、ELB、EIP 基于CCE快速部署Volcano批量调度系统 该解决方案能帮您快速在华为云CCE容器集群上快速部署Volcano批量调度系统。
-
使用kubectl自动创建文件存储 - 云容器引擎 CCE
pvc-sfs-auto-example.yaml 命令执行完成后会在集群所在VPC内创建一个文件存储,您可以在“存储管理 > 文件存储卷”中查看该文件系统,也可以在SFS的控制台查看该文件系统。 父主题: 文件存储卷
-
收集Kubernetes事件 - 云容器引擎 CCE
策略模板:若安装插件时未勾选采集Kubernetes事件,或者删除了对应的日志策略,可通过该方式重新创建默认事件采集策略。 事件查看:可直接在“日志中心”页面查看,选择日志策略配置的日志流名称,即可查看上报到云日志服务(LTS)的事件。 Kubernetes事件上报应用运维管理(AOM) 安装云原生日志采
-
使用kubectl自动创建对象存储 - 云容器引擎 CCE
pvc-obs-auto-example.yaml 命令执行完成后会在集群所在VPC内创建一个对象存储桶,您可以在“存储管理 > 对象存储卷”中单击桶名称查看该桶,也可以在OBS的控制台查看该桶。 父主题: 对象存储卷
-
节点限制检查异常处理 - 云容器引擎 CCE
cloud.com/cce-nodepool"该标签影响集群升级。请确认该节点上的负载调度是否依赖该标签: 若无依赖,请删除该标签。 若存在依赖,请修改负载调度策略,解除依赖后再删除该标签。 检查到节点含有CNIProblem污点,请优先恢复 检查到节点含有key为node.cloudprovider
-
使用延迟绑定的云硬盘(csi-disk-topology)实现跨AZ调度 - 云容器引擎 CCE
Insufficient cpu. 查看PVC创建的云硬盘所在的可用区,发现data-nginx-3是在可用区1,而此时可用区1的节点没有资源,只有可用区3的节点有CPU资源,导致无法调度。由此可见PVC先绑定PV创建云硬盘会导致问题。 延迟绑定的云硬盘StorageClass 在集群中查看Storag
-
使用kubectl自动创建云硬盘 - 云容器引擎 CCE
pvc-evs-auto-example.yaml 命令执行完成后,会在集群所在分区创建EVS云硬盘,您可以在“存储管理 > 云硬盘存储卷”中查看该云硬盘,也可以在EVS的控制台根据卷名称查看该硬盘。 父主题: 云硬盘存储卷
-
NGINX Ingress控制器 - 云容器引擎 CCE
服务端口:ELB监听器使用的端口,端口范围为1-65535。 目标服务命名空间:请选择Service所在的命名空间。 目标服务名称:请选择已有Service。页面列表中的查询结果已自动过滤不符合要求的Service。 目标服务访问端口:可选择目标Service的访问端口。 集群版本为v1.19.16-r5、v1
-
通过ELB健康检查设置Pod就绪状态 - 云容器引擎 CCE
新的ELB。 健康检查:开启健康检查(不开启则默认为健康检查成功)。 图1 负载均衡配置 前往ELB控制台,查看对应的后端服务器组,健康检查状态正常。 在CCE控制台中查看工作负载状态处于“运行中”。 父主题: 负载均衡(LoadBalancer)
-
亲和与反亲和调度 - 云容器引擎 CCE
ion,表示会根据规则优先选择哪些节点。 为演示这个效果,先为上面的集群添加一个节点,且这个节点跟另外三个节点不在同一个可用区,创建完之后查询节点的可用区标签,如下所示,新添加的节点在cn-east-3c这个可用区。 $ kubectl get node -L failure-domain
-
节点滚动升级 - 云容器引擎 CCE
工作负载迁移成功后,在工作负载详情页的“实例列表”页签,可查看到工作负载状已迁移到1中所创建的节点上。 删除原有节点。 工作负载迁移成功且运行正常后,即可删除原有节点。 原有节点不在默认节点池 复制节点池并添加节点。具体请参见复制节点池。 单击节点池名称操作列的“节点列表”,在节点列表中可查看到新建节点的IP地址。
-
合理分配容器计算资源 - 云容器引擎 CCE
re-pod-container/memory-request-limit-2.yaml --namespace=mem-example 查看Pod的详细信息: kubectl get pod memory-demo-2 --namespace=mem-example 这时候,容
-
通过自定义域名访问集群 - 云容器引擎 CCE
使用SAN连接集群 通过kubectl连接集群 修改SAN后,需重新下载kubeconfig.json配置文件。 登录CCE控制台,单击集群名称进入集群。 在集群总览页中的“连接信息”版块,单击kubectl后的“配置”按钮,查看kubectl的连接信息,并在弹出页面中下载配置文件。
-
修改节点进程 ID数量上限kernel.pid - 云容器引擎 CCE
pid_max大小不能满足您的业务诉求,您可以修改kernel.pid_max大小,具体方法请参见修改节点kernel.pid_max。 查看节点当前pid用量 登录节点,执行如下命令可查看当前pid用量。 ps -eflL | wc -l # ps -eflL | wc -l 691 修改节点kernel.pid_max