检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
主机视图 从主机视角出发,监控主机的资源占用与健康状态,查看主机的磁盘、文件系统等常用系统设备指标,帮助您掌控节点运行状况。 指标说明 主机视图暴露的指标具体说明如下: 图1 主机资源指标 表1 视图说明 图表名称 单位 说明 CPU使用率 百分比 每个CPU核的使用率 平均负载
PU兼容生态,支持GPU调度、监控、弹性伸缩等全生命周期操作。详情请参见GPU调度。 GPU虚拟化:支持对GPU设备显存与算力进行动态划分,多个容器共享一个GPU设备且相互隔离,提高GPU利用率。详情请参见GPU虚拟化。 NPU:支持以NPU实例作为集群工作节点,并提供NPU调度
GPU驱动的工作负载,仅在安装场景占用资源,安装完成后无资源占用。 DaemonSet nvidia-gpu-device-plugin 为容器提供Nvidia GPU异构算力的Kubernetes设备插件。 DaemonSet nvidia-operator 为集群提供Nvidia GPU节点管理能力。
例如,您可以通过安装后执行脚本创建iptables规则,限制每分钟最多只能有25个TCP协议的数据包通过端口80进入,并且在超过这个限制时,允许最多100个数据包通过,以防止DDoS攻击。 iptables -A INPUT -p tcp --dport 80 -m limit --limit 25/minute --limit-burst
例如,您可以通过安装后执行脚本创建iptables规则,限制每分钟最多只能有25个TCP协议的数据包通过端口80进入,并且在超过这个限制时,允许最多100个数据包通过,以防止DDoS攻击。 iptables -A INPUT -p tcp --dport 80 -m limit --limit 25/minute --limit-burst
AI套件(NVIDIA GPU)插件使用dcgm-exporter监控GPU指标 对运维人员来说,实现对Kubernetes的大规模GPU设备可监测能力至关重要。通过监测GPU相关指标能够了解整个集群的GPU使用情况、健康状态、工作负载性能等,从而实现对异常问题的快速诊断、优化G
硬件或权限问题导致的。 隔离故障GPU节点的GPU设备 NVML获取设备UUID异常 Xid=%d on Device=%s, UUID=%s, SN=%s, the device will go unhealthy. GPU设备存在严重的Xid错误:此类严重的Xid错误,需要进
HTTPS(集成SSL)支持全链路HTTPS、SNI多证书、RSA、ECC双证、TLS 1.3协议和TLS算法套件选择。 支持WAF防火墙防护。 支持DDos防护。 支持黑白名单功能。 支持自定义安全策略。 服务治理 支持金丝雀发布、蓝绿发布。 支持限速,详情请参见Rate Limiting。
集群可用但节点状态为“不可用”如何解决? 当集群状态为“可用”,而集群中部分节点状态为“不可用”时,请参照本文提供的排查思路解决。 节点不可用检测机制说明 Kubernetes 节点发送的心跳确定每个节点的可用性,并在检测到故障时采取行动。检测的机制和间隔时间详细说明请参见心跳。
同步云服务器 操作场景 集群中的每一个节点对应一台云服务器,集群节点创建成功后,您仍可以根据需求,修改云服务器的名称或变更规格。由于规格变更对业务有影响,建议一台成功完成后再对下一台进行规格变更。 CCE节点的部分信息是独立于弹性云服务器ECS维护的,当您在ECS控制台修改云服务
快照与备份 CCE通过云硬盘EVS服务为您提供快照功能,云硬盘快照简称快照,指云硬盘数据在某个时刻的完整复制或镜像,是一种重要的数据容灾手段,当数据丢失时,可通过快照将数据完整的恢复到快照时间点。 您可以创建快照,从而快速保存指定时刻云硬盘的数据。同时,您还可以通过快照创建新的云
制作并上传镜像 本章指导用户将整体应用制作成Docker镜像。制作完镜像后,每次应用的部署和升级即可通过镜像操作,减少了人工配置,提升效率。 制作镜像时,要求制作镜像的文件在同个目录下。 使用云服务 容器镜像服务SWR:是一种支持容器镜像全生命周期管理的服务, 提供简单易用、安全
beta(或gpu-device-plugin),单击“安装”。 在安装插件页面,设置插件关键参数。 Nvidia驱动:填写Nvidia驱动的下载链接,请根据GPU节点的显卡型号选择驱动。 其余参数可保持默认,详情请参见gpu-beta(gpu-device-plugin)。 单
次性发起大量LIST请求,或单个LIST请求查询大量数据。 控制节点内存负载过高,影响系统稳定性。 停止大批量查询行为。 如果需要增强集群抗过载能力,您可以变更集群规格至更大的规模,详情请参见变更集群规格。 控制节点 修改集群控制节点安全组 说明: 控制节点安全组命名规则:集群名称-cce-control-随机数
PV:PV是PersistentVolume的缩写,译为持久化存储卷,描述的是一个集群里的持久化存储卷,它和节点一样,属于集群级别资源,其对象作用范围是整个Kubernetes集群。PV可以有自己的独立生命周期,不依附于Pod。 PVC:PVC是PersistentVolumeCla
v1.23 - 1.23.0 1.23.47 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.44 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容
在CCE中创建集群时,您需要根据具体的业务需求规划VPC的数量、子网的数量、容器网段划分和服务网段连通方式。 本文将介绍VPC环境下CCE集群里各种地址的作用,以及地址段该如何规划。 约束与限制 通过搭建VPN方式访问CCE集群,需要注意VPN网络和集群所在的VPC网段、容器使用网段不能冲突。 集群各网段基本概念
容器名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 无 无 允许 - 镜像名称 参数名 取值范围 默认值 是否允许修改 作用范围 image 无 无 允许 - 更新策略 参数名 取值范围 默认值 是否允许修改 作用范围 imagePullPolicy 无 无 允许
参数名 取值范围 默认值 是否允许修改 作用范围 affinity 无 无 允许 - 容忍策略 参数名 取值范围 默认值 是否允许修改 作用范围 tolerations 无 无 允许 - Pod标签 参数名 取值范围 默认值 是否允许修改 作用范围 labels 无 无 允许 - CCI
cn-east-3.myhuaweicloud.com 创建pipeline完成镜像构建及push 本示例将使用Jenkins构建一条流水线,该流水线的作用是从代码仓中拉取代码并打包成镜像推送到SWR镜像仓库中。 创建pipeline步骤如下: 在Jenkins界面单击“New Item”。 输入任务名称,并选择创建流水线。