检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
大规模GPU设备可监测能力至关重要。通过监测GPU相关指标能够了解整个集群的GPU使用情况、健康状态、工作负载性能等,从而实现对异常问题的快速诊断、优化GPU资源的分配、提升资源利用率等。除运维人员以外,其他人员(例如数据科学家、AI算法工程师等)也能通过相关监控指标了解业务的G
前提条件 目标集群已创建。 Prometheus与目标集群之间网络保持连通。 已在一台Linux主机中使用二进制文件安装Prometheus,详情请参见Installation。 操作步骤 分别获取目标集群的bearer_token 信息。 在目标集群创建rbac权限。 登录到
如下配置示例适用于Kubernetes 1.13及以下版本的集群。 操作步骤 登录SFS控制台,创建一个文件存储,记录文件存储的ID、共享路径和容量。 请参见通过kubectl连接集群,使用kubectl连接集群。 新建两个yaml文件,用于创建PersistentVolume(PV)、PersistentVo
服务发布到ELB,ELB的后端为何会被自动删除? 问题描述: 服务发布到ELB,工作负载已正常,但服务的pod端口未及时发布出来,ELB里的后端会被自动删除。 问题解答: 创建ELB时候,如果ELB健康检查失败,后端服务器组会删除,而且后续服务正常以后也不会添加。如果是更新已有的SVC时则不会删除。 添加删除节点
高频常见问题 集群管理 CCE集群创建失败的原因与解决方法? 集群的管理规模和控制节点的数量有关系吗? 当集群状态为“不可用”时,如何排查解决? 节点及节点池 集群可用但节点状态为“不可用”如何解决? 如何收集CCE集群中节点的日志? thinpool磁盘空间耗尽导致容器或节点异常时,如何解决?
在云原生网络2.0下,每个Pod都会分配(申请并绑定)一张弹性网卡或辅助弹性网卡(统一称为:容器网卡)。由于容器场景下Pod的极速弹性与慢速的容器网卡创建绑定的差异,严重影响了大规模批创场景下的容器启动速度。因此,云原生2.0网络提供了容器网卡动态预热的能力,在尽可能提高IP的资源利用率的前提下,尽可能加快Pod的启动速度。
工作负载调度策略概述 在Kubernetes中,工作负载调度的基本单位是Pod。创建工作负载时,调度器会自动对工作负载中的Pod进行合理分配,例如将Pod分散到资源充足的节点上。 虽然调度器的默认行为已经能够满足许多基本需求,但在一些特定场景下,用户可能需要更精细地控制Pod的部
default-secret 在CCE控制台也可以设置镜像拉取策略,在创建工作负载时设置“更新策略”:勾选表示总是拉取镜像(Always),不勾选则表示按需拉取镜像(IfNotPresent)。 图1 设置更新策略 建议您在制作镜像时,每次制作一个新的镜像都使用一个新的Tag,如果不更新Tag只更
已安装压力测试工具Apache Benchmark。 创建业务负载和对应的Service 本文以两个服务通过Nginx Ingress实现对外的流量路由为例进行演示。 创建应用test-app和对应Service。 创建test-app.yaml文件。 apiVersion: apps/v1
imagePullSecrets: - name: default-secret 创建daemonSet。 kubectl create –f daemonSet.yaml 查询daemonset是否创建成功。 kubectl get daemonset daemonset名称 本示例执行命令为:
作栏中单击“删除”。 然后单击“创建日志采集策略”,选择策略模板中的“采集kubernetes事件”,单击“确定”进行创建。 场景三:自定义日志组(流)不存在 CCE界面暂不支持非默认日志组(流)的创建,请到云日志服务(LTS)进行重新创建。 创建完毕后,参考以下步骤进行修复:
在“插件配置”页面,选择云原生监控插件需要对接的AOM实例。如AccessCode未创建,请先创建AccessCode。 图1 启用容器监控 集群创建完成后,在“节点管理”中创建节点。待节点创建成功后,云原生监控插件将自动部署至节点上。 在监控中心页面开通 在目标集群左侧导航栏选择“监控中心”。
-apiserver工作负载。 创建HPA弹性伸缩规则 exporter上报到Prometheus的数据,经过Prometheus adapter监控数据转换成Kubernetes metric api后,就可以创建HPA规则实现弹性伸缩。 创建HPA规则示例如下,使用ELB的入
everest-csi-controller:提供存储卷的创建、删除、扩容、云盘快照等功能; everest-csi-driver:提供存储卷在node上的挂载、卸载、格式化等功能。 详情请参见everest 针对1.15及以上版本的集群,在创建时将默认安装CSI插件(everest)。CC
违反指定策略会导致Pod无法创建。 audit 工作负载(例如Deployment、Job等) 违反指定策略会在审计日志(audit log)中添加新的审计事件,Pod可以被创建。 warn 工作负载(例如Deployment、Job等) 违反指定策略会返回用户可见的告警信息,Pod可以被创建。 Po
计费概述 通过阅读本文,您可以快速了解云容器引擎CCE的计费模式、计费项、续费、欠费等主要计费信息。 计费模式 云容器引擎提供包年/包月、按需计费两种计费模式,以满足不同场景下的用户需求。关于计费模式的详细介绍请参见计费模式概述。 包年/包月是一种预付费模式,即先付费再使用,按照
当集群状态显示为“不可用”时,请参照如下方式来排查解决。 排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。 如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 排查项一:安全组是否被修改 排查项二:集群是否过载 排查项
对接ELB的基本配置 具体使用场景和示例如下: 关联已有ELB场景:详情请参见添加Ingress时对接已有ELB 自动创建ELB场景:详情请参见添加Ingress时自动创建ELB 表1 对接ELB注解 参数 类型 描述 支持的集群版本 kubernetes.io/elb.class String
服务概述 直接访问Pod的问题 Pod创建完成后,如何访问Pod呢?直接访问Pod会有如下几个问题: Pod会随时被Deployment这样的控制器删除重建,那访问Pod的结果就会变得不可预知。 Pod的IP地址是在Pod启动后才被分配,在启动前并不知道Pod的IP地址。 应用往
Helm v2 Release转换成Helm v3 Release 背景介绍 当前CCE已全面支持Helm v3版本,用户可通过本指南将已创建的v2 release转换成v3 release,从而更好地使用v3的特性。因Helm v3底层相对于Helm v2来说,一些功能已被弃用