检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用场景 动态挂载仅可在创建有状态负载(StatefulSet)时使用,通过卷声明模板(volumeClaimTemplates字段)实现,并依赖于StorageClass的动态创建PV能力。在多实例的有状态负载中,动态挂载可以为每一个Pod关联一个独有的PVC及PV,当Pod被重新调度
labels: failure-domain.beta.kubernetes.io/region: <your_region> # 替换为您待部署应用的节点所在的区域 failure-domain.beta.kubernetes.io/zone:
labels: failure-domain.beta.kubernetes.io/region: <your_region> # 替换为您待部署应用的节点所在的区域 failure-domain.beta.kubernetes.io/zone:
es设计用来限制Pod访问的对象,相当于从应用的层面构建了一道防火墙,进一步保证了网络安全。NetworkPolicy支持的能力取决于集群的网络插件的能力。 默认情况下,如果命名空间中不存在任何策略,则所有进出该命名空间中的Pod的流量都被允许。 NetworkPolicy的规则可以选择如下3种:
集群诊断 云容器引擎CCE服务提供一键集群诊断能力,包括集群诊断、节点诊断、工作负载诊断、核心插件诊断和外部依赖诊断,可以辅助您定位集群中出现的问题。本文介绍如何在集群中使用集群诊断功能。 前提条件 已获取资源权限。 集群版本高于v1.17。 集群处于“运行中”状态。 功能入口
> 调度配置”选择开启或关闭DRF调度能力,默认开启。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“配置中心”,在右侧选择“调度配置”页签。 在“AI任务性能增强调度”配置中,选择是否开启“公平调度 (drf) ”。 启用该能力后,可增强集群业务的吞吐量,提高业务运行性能。
监控安全风险 结合应用运维管理AOM服务,CCE提供基于Kubernetes原生类型的容器监控能力,可实时监控应用及资源,采集各项指标及事件等数据以分析应用健康状态,提供全面、清晰、多维度数据可视化能力。此外,您还可以根据自己的需求,采集和监控工作负载的自定义指标,实现个性化的监控策略。
创建GPU类型节点,具体请参见创建节点。 集群中需要安装GPU插件,且安装时注意要选择节点上GPU型号对应的驱动,具体请参见CCE AI套件(NVIDIA GPU)。 在v1.27及以下的集群中使用默认GPU调度能力时,GPU插件会把驱动的目录挂载到/usr/local/nvidia/lib64,在容器中使用GP
去重、分组、分发等能力管理告警信息。 本地数据存储开启模式 StatefulSet thanosSidecar 仅在高可用模式下部署。和prometheus-server运行在同一个Pod中,用于实现普罗指标数据的持久化存储。 本地数据存储开启模式 Container thanosQuery
period:周期,period=10s,表示每10s探测一次容器 success:成功,#success=1,表示连续1次成功后记作成功 failure:失败,#failure=3,表示连续3次失败后会重启容器 以上存活探针表示:容器启动后立即进行探测,如果1s内容器没有给出回应则记作探测失败
CCE AI套件(NVIDIA GPU) 插件简介 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 约束与限制 下载的驱动必须是后缀为“.run”的文件。 仅支持Nvidia Tesla驱动,不支持GRID驱动。
replicas是2,如果maxSurge和maxUnavailable都为默认值25%,那实际升级过程中,maxSurge允许最多3个Pod存在(向上取整,2*1.25=2.5,取整为3),而maxUnavailable则不允许有Pod Unavailable(向上取整,2*0.75=1.5,
CCE的云原生告警能力是由AOM服务提供的,支持指标和事件的告警。同时,CCE集群详情中增加了告警中心能力,能支持快速配置资源等常用告警和告警查看。 图1 告警中心架构 告警中心 基于AOM服务的告警能力实现,提供集群内的告警快速检索、告警快速配置的能力。用户可以通过告警中心一键配置常用的告警规则。
PVC按照社区逻辑实现,PVC本身的定义是存储声明,与底层存储解耦,不负责感知底层存储细节,因此没有感知底层存储故障的能力。 云监控服务CES 具备查看云服务监控指标的能力:云监控服务基于云服务自身的服务属性,已经内置了详细全面的监控指标。当用户在云平台上开通云服务后,系统会根据服务类
03版本的GPU驱动。 运行时 仅支持containerd 插件 集群中需要同时安装以下插件: Volcano调度器插件:1.10.5及以上版本 CCE AI套件(NVIDIA GPU)插件:2.0.5及以上版本 步骤一:开启GPU虚拟化 集群中需要同时安装CCE AI套件(NVIDIA GPU)插件和Volcano调度器插件。
containerLabel: container memory: containerQuery: sum(container_memory_working_set_bytes{<<.LabelMatchers>>,container!="",pod
服务治理:深度集成应用服务网格,提供开箱即用的应用服务网格流量治理能力,用户无需修改代码,即可实现灰度发布、流量治理和流量监控能力。 容器运维:深度集成容器智能分析,可实时监控应用及资源,支持采集、管理、分析日志,采集各项指标及事件并提供一键开启的告警能力。 扩展插件市场:提供了多种类型的插件,用于管
调整TIME_WAIT 建议执行以下命令,为Nginx Ingress开启TIME_WAIT复用,即允许将TIME_WAIT连接重新用于新的TCP连接,并且减小FIN_WAIT2状态的参数net.ipv4.tcp_fin_timeout的时间,和减小TIME_WAIT状态的参数net
写权限。当配置在全部命名空间时能力与运维权限一致。 admin(运维权限):对全部命名空间下大多数资源的读写权限,对节点、存储卷,命名空间和配额管理的只读权限。 cluster-admin(管理员权限):对全部命名空间下所有资源的读写权限。 drainage-editor:节点排水操作权限,可执行节点排水。
r插件,否则可能会出现插件安装失败的情况。 注意事项 Gatekeeper提供的webhook的能力可能会影响Kubernetes基本资源的使用,请确保业务必须使用webhook能力,并慎重评估使用该插件引入的风险。 Gatekeeper是CCE基于开源软件进行适配并集成的精选开