检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU)插件和Volcano调度器插件。 登录CCE控制台,单击集群名称进入集群,在左侧选择“配置中心”。 切换至“异构资源配置”页签,开启“GPU虚拟化”。 集群默认驱动:集群中GPU节点默认使用的GPU驱动版本。如果选择“自定义驱动链接地址”,则需填写Nvidia驱动的下载链接,详情请参见获取驱动链接-公网地址。
数可根据需求参考创建LoadBalancer类型Service进行设置。 Service名称:自定义服务名称,可与工作负载名称保持一致。 访问类型:选择“负载均衡”。 选择器:添加标签,Service根据标签选择Pod,填写后单击“确认添加”。也可以引用已有工作负载的标签,单击“
工作负载伸缩原理 CCE支持多种工作负载伸缩方式,策略对比如下: 表1 弹性伸缩策略对比 伸缩策略 HPA策略 CronHPA策略 CustomedHPA策略 VPA策略 AHPA策略 策略介绍 Kubernetes中实现POD水平自动伸缩的功能,即Horizontal Pod Autoscaling。
时故障场景下频繁迁移影响业务,容忍时间配置过大可能导致容器在节点故障时长时间无法迁移导致业务受损 容器迁移对节点无法访问状态的容忍时间 当环境出现异常,节点无法访问(如节点网络异常)时,容器将在该容忍时间后自动驱逐,默认为300s。 参数名 取值范围 默认值 是否允许修改 作用范围
本节将为您介绍如何创建挂载负载均衡类型服务的ClickHouse集群,挂载负载均衡类型服务可以帮助您从公网访问ClickHouse集群。 创建挂载负载均衡类型服务的ClickHouse集群,方便您从公网访问ClickHouse集群。 创建一个名为elb.yaml的YAML文件,其中elb.yaml为自定义名称。
Master节点SSH连通性检查异常处理 检查项内容 该检查通过尝试建立SSH连接,检查CCE是否能通过SSH方式连接至您的Master节点。 解决方案 SSH连通性检查可能有较低概率因为网络波动检查失败,请您优先重试升级前检查; 若重试检查仍无法通过检查,请您提交工单,联系技术支持人员排查。
v1.30 修复部分问题 2.1.22 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 修复了一些页面显示问题 支持查询超节点信息 支持上报显卡拓扑信息 修复了日志打印问题 2.1.14 v1.21 v1.23 v1.25 v1.27 v1.28
的存储插件实现方案。CCE容器存储(Everest)是CCE基于CSI开发的自研存储插件,能够为容器提供不同类型的持久化存储功能。 存储卷访问模式 存储卷只能以底层存储资源所支持的方式挂载到宿主系统上。例如,文件存储可以支持多个节点读写,云硬盘只能被一个节点读写。 ReadWri
21及以上版本的集群中会默认开启。 为了帮助用户平滑过渡,社区默认将Token有效时间延长为1年,1年后Token失效,不具备证书reload能力的client将无法访问APIServer,建议使用低版本Client的用户尽快升级至高版本,否则业务将存在故障风险。 如果用户使用版本过低的Kubernetes
在节点池详情中切换至“弹性伸缩”页签,可以看到弹性伸缩策略的配置及伸缩记录。 图1 查看弹性伸缩策略 您还可以在“策略”页面中查看已创建的弹性伸缩策略: 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中单击“策略”,切换至“节点伸缩策略”页签。 您可以查看弹性伸缩策略的配置。单击要策略后方的“更多
回退模板工作负载 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“应用模板”,在右侧选择“模板实例”页签。 单击待回退模板实例后的“回退”,选择要回退的模板实例版本,单击“回退”。 模板工作负载列表中,状态为“回退成功”时,表明工作负载回退成功。 卸载模板工作负载 登录CCE控
节点 节点概述 容器引擎说明 节点操作系统说明 节点规格说明 创建节点 纳管节点 登录节点 管理节点 节点运维 节点管理最佳实践
源使用状况,进而识别可优化的应用。 成本洞察关键能力 丰富的容器成本覆盖范围:支持成本分析的费用包括CCE集群管理费用、CCE集群关联的ECS和EVS资源费用。 基于计费账单的精准成本计算:使用真实账单进行成本分摊计算,精准统计集群成本。 灵活的成本分摊策略:支持集群、命名空间、
定时巡检时间。 图1 定时巡检 手动发起诊断 当您初次使用健康诊断时,单击“马上诊断”,集群将开始执行诊断。等待一段时间后,健康诊断页面将显示健康评分、风险分布雷达图、诊断风险汇总、历史风险分布,以及诊断结果。 图2 诊断概览 查看诊断结果 诊断结束后,页面将自动刷新并展示诊断结果,其中无风险项将自动隐藏。
离线类型。根据应用对资源质量需求的差异,在线应用可以归纳为延时敏感型LS(Latency Sensitive),通常对请求压力(QPS)或访问延迟(RT)等指标有明确的要求,对资源质量较为敏感;离线应用可以归纳为资源消耗型BE(Best Effort),通常是一些计算密集型的任务
ace下的Pod知道对方的IP,而Kubernetes依赖的底层网络没有提供Namespace之间的网络隔离的话,那这两个Pod就可以互相访问。 父主题: Pod、Label和Namespace
在有状态负载中动态挂载本地持久卷:仅有状态工作负载支持,可以为每一个Pod关联一个独有的PVC及PV,当Pod被重新调度后,仍然能够根据该PVC名称挂载原有的数据。适用于多实例的有状态工作负载。 本地持久卷不支持通过静态PV使用,即不支持先手动创建PV然后通过PVC在工作负载中挂载的方式使用。 约束与限制 本地持久卷仅在集群版本
弹性伸缩 弹性伸缩概述 工作负载弹性伸缩 节点弹性伸缩 使用HPA+CA实现工作负载和节点联动弹性伸缩 CCE容器实例弹性伸缩到CCI服务
release信息存储在configmap中,Helm v3 release信息存储在secrets中。 若用户通过前端console操作,在获取实例、更新实例等操作中CCE会自动尝试转换v2模板实例到v3模板实例。若用户仅在后台操作实例,需通过该指南进行转换操作。 转换流程(不使用Helm v3客户端) 在CCE节点上下载helm
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据