检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
存储插件(everest)健康程度 日志采集插件(log-agent)健康程度 域名解析插件(coredns)健康程度 业务节点负载情况 业务节点状态 Pod配置健康程度 Pod负载情况 Pod运行状态 更多内容请参见诊断项及修复方案。 父主题: 健康中心
GPU虚拟化 监控GPU资源指标 CCE AI套件(NVIDIA GPU)插件使用DCGM-Exporter监控GPU指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理 GPU监控指标说明 父主题: 调度
规格配置变更 如何变更CCE集群中的节点规格? CCE节点池内的节点变更规格后会有哪些影响? CCE节点变更规格后,为什么无法重新拉起或创建工作负载? CCE集群的节点可以更改IP吗? 父主题: 节点
Burst功能,关闭CPU Burst仅针对新建的Pod生效。 在已打开混合部署的节点池中部署工作负载。以nginx为例,设置CPU Request为2,Limit为4,并为工作负载创建集群内访问的Service。 apiVersion: apps/v1 kind: Deployment
在CCE集群中使用容器的安全配置建议 在CCE集群中使用镜像服务的安全配置建议 在CCE集群中使用密钥Secret的安全配置建议 在CCE集群中使用工作负载Identity的安全配置建议
弹性伸缩 使用HPA+CA实现工作负载和节点联动弹性伸缩 CCE容器实例弹性伸缩到CCI服务 基于Prometheus指标的弹性伸缩实践 基于ELB监控指标的弹性伸缩实践 通过Nginx Ingress对多个应用进行弹性伸缩
19及以下版本集群,有可能会出现污点打上之前负载已经调度到节点上,如果需要避免这种情况,请选择1.19及以上集群。 最大实例数 节点最大可以正常运行的实例数(Pod),该数量包含系统默认实例,取值范围为16~256。 该设置的目的为防止节点因管理过多实例而负载过重,请根据您的业务需要进行设置。
多种维度的成本可视化与成本分摊策略。 支持长期的成本数据存储与检索:最大支持长达2年的成本分析。 分钟级负载计费,轻松应对快速弹性场景:针对应用快速弹性场景,支持分钟级的负载发现与计费能力,让所有成本无一遗漏。 约束与限制 PVC存储费用:当前只统计云硬盘(EVS)类型存储费用,
集群调度器配置 调度算法 部署策略 控制器性能配置 集群控制器并发配置 节点生命周期控制器(node-lifecycle-controller)配置 负载弹性伸缩控制器(horizontal-pod-autoscaler-controller)配置 Pod回收控制器(pod-garbage-
v1.23集群:v1.23.9-r0及以上版本 v1.25集群:v1.25.4-r0及以上版本 通过kubectl命令行设置 您可以通过对工作负载添加annotations来设置是否开启Pod延时启动功能,如下所示。 apiVersion: apps/v1 kind: Deployment
动,并开启支持GPU虚拟化。 图1 异构资源配置 单击“确认配置”进行保存。 步骤三:创建GPU虚拟化负载并扩容 参考使用GPU虚拟化章节,创建使用GPU虚拟化资源的无状态负载,并将GPU申请量设为大于集群现有GPU资源上限。例如:集群中有16GiB显存的资源,假设每个Pod占用
网络指导 CCE如何与其他服务进行内网通信? 使用CCE设置工作负载访问方式时,端口如何填写? Ingress中的property字段如何实现与社区client-go兼容? 服务加入Istio后,如何获取客户端真实源IP? 为什么更换命名空间后无法创建Ingress? 服务发布到ELB,ELB的后端为何会被自动删除?
安全隔离:直接使用云上现有IaaS服务构建独享的云文件存储,为租户提供数据隔离保护和IOPS性能保障。 应用场景:适用于多读多写(ReadWriteMany)场景下的各种工作负载(Deployment/StatefulSet)、守护进程集(DaemonSet)和普通任务(Job)使用,主要面向高性能网站、日志存储、DevOps、企业办公等场景。
ocker daemon崩溃。 该漏洞可能在以下场景触发: 在集群内的节点上手动docker pull一个被恶意损坏的镜像。 部署工作负载时负载模板中定义了一个被恶意损坏的镜像,kubelet自动拉取镜像时触发。 该漏洞的影响范围如下: 若镜像被恶意损坏,拉取镜像时可能会导致docker
往有状态负载页面,将prometheus-server的实例重启。 图6 扩容PVC 在磁盘空间不足后已无法写入Prometheus指标,将导致数据无法采集,因此扩容完成重启后,该时段的监控数据将会丢失。 为什么监控中心的工作负载/节点CPU使用率超过100%? 工作负载CPU使
PV创建后,可以创建PVC关联PV,然后在工作负载的容器中挂载,具体操作步骤请参见通过静态存储卷使用已有文件存储。 验证挂载参数是否生效。 本例中将PVC挂载至使用nginx:latest镜像的工作负载,并通过mount -l命令查看挂载参数是否生效。 查看已挂载文件存储的Pod,本文中的示例工作负载名称为web-sfs。
由节点池迁移至默认节点池的节点,"cce.cloud.com/cce-nodepool"该标签影响集群升级。请确认该节点上的负载调度是否依赖该标签: 若无依赖,请删除该标签。 若存在依赖,请修改负载调度策略,解除依赖后再删除该标签。 检查到节点含有CNIProblem污点,请优先恢复 检查到节点含有key为node
Volcano自定义资源 Pod组(PodGroup):Pod组是Volcano自定义资源类型,代表一组强关联Pod的集合,主要用于批处理工作负载场景,比如Tensorflow中的一组ps和worker。 队列(Queue):容纳一组PodGroup的队列,也是该组PodGroup获取集群资源的划分依据。
/usr/local/cuda/version.txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错 父主题: 节点运行
若NTP服务存在异常,则参考NTP异常处理-NTPProblem。 检查节点的监控,查看节点的CPU、内存、网络等资源负载情况是否存在异常。如果节点负载情况存在异常,请参考节点MemoryPressure等进行解决。 节点状态为Unknown状态 登录ECS界面,查看节点是否存在。