检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在业务波动时自适应调整应用的副本数量。 前提条件 目标集群已创建,且集群中包含GPU节点,并已运行GPU相关业务。 在集群中安装CCE AI套件(NVIDIA GPU),且插件的metrics API正常工作。您可以登录GPU节点,执行以下命令进行检查: curl {Pod IP}:2112/metrics
单元,每个节点包含自己的处理器和本地内存,这些节点在物理上彼此独立,但通过高速互连总线连接在一起,形成一个整体系统。NUMA节点能够通过提供更快的本地内存访问来提高系统性能,但通常一个Node节点是多个NUMA节点的集合,在多个NUMA节点之间进行内存访问时会产生延迟,开发者可以
io/disk-iops注解。 reclaimPolicy 用来指定创建PV的persistentVolumeReclaimPolicy字段值,支持Delete和Retain。如果StorageClass对象被创建时没有指定reclaimPolicy,它将默认为Delete。
dev" denied the request: validation failed: failed policy: cip-key-secret-match: spec.template.spec.containers[0].image ... 为镜像添加签名。 登录SWR企业仓库,进入一个已有的仓库实例。
节点镜像层数量异常检查 检查项内容 检查到您的节点上镜像层数量过多(>5000层),可能导致docker/containerd启动过慢,影响docker/containerd标准输出。 如果您集群中使用了nginx,可能会出现转发变慢等问题。 解决方案 请登录节点手动删除用不到的镜像,防止后续升级异常。
您可以根据实际业务需求调整进程ID数量上限。 默认kernel.pid_max说明 CCE在2022年1月底将1.17及以上集群的节点公共操作系统EulerOS 2.5、CentOS 7.6、Ubuntu 18.04镜像kernel.pid_max默认值调整为4194304,满足如下两个条件节点的kernel
云原生监控插件兼容自建Prometheus 云原生监控插件兼容模式 若您已自建Prometheus,且您的Prometheus基于开源,未做深度定制、未与您的监控系统深度整合,建议您卸载自建Prometheus并直接使用云原生监控插件对您的集群进行监控,无需开启“兼容模式”。 卸载您自建的Prometh
labels: failure-domain.beta.kubernetes.io/region: <your_region> # 替换为您待部署应用的节点所在的区域 failure-domain.beta.kubernetes.io/zone:
tvolumeclaims/{name} 表1 路径参数 参数 是否必选 参数类型 描述 name 是 String 需要删除的PersistentVolumClaim的名称。 namespace 是 String 指定PersistentVolumeClaim所在的命名空间。 表2
GPU插件隔离事件 当GPU显卡出现异常时,系统会将出现问题的GPU设备进行隔离,详细事件如表1所示。 表1 GPU插件隔离事件 事件原因 详细信息 描述 隔离结果 GPUMemoryError Device=%s, UUID=%s, SN=%s has failed remapped rows;
字节/秒 容器磁盘每秒读写字节数 文件系统使用率 百分比 文件系统的使用率 文件系统使用量 字节 文件系统已经使用的字节数 指标清单 Pod视图使用的指标清单如下: 表4 Pod视图指标清单 指标 指标类型 说明 kube_pod_container_status_running gauge
询SFS服务客户支持。若您的应用所在区域已经支持通用文件系统,建议新应用使用通用文件系统,并尽快将已有的SFS容量型文件存储迁移到通用文件系统中,以免容量不足影响业务。 表1 文件存储性能 参数 SFS容量型 通用文件系统(SFS 3.0) 最大带宽 2GB/s 1.25TB/s
排查项六:同一pod中container端口冲突导致 Error: failed to start container "filebeat": Error response from daemon: OCI runtime create failed: container_linux.go:330:
故障现象 在使用containerd容器引擎场景下,拉取镜像到节点时,概率性缺少镜像层,导致工作负载容器创建失败。 问题根因 docker v1.10 之前支持mediaType 为 application/octet-stream 的layer,而containerd不支持appl
您可以设置节点或节点池安装后执行脚本,在新建节点或节点池时通过脚本配置RuntimeMaxUse大小。 首先您需要确认创建节点或节点池的操作系统,例如CentOS 7.6。 在同集群、同操作系统的节点上进行脚本命令可行性的测试,在节点上手动执行命令,确认脚本命令可行。手动执行脚本命令请参考修改节点RuntimeMaxUse。
通过Core Dump文件定位容器问题 应用场景 Core Dump是Linux操作系统在程序突然异常终止或者崩溃时将当时的内存状态记录下来,保存在一个文件中。通过Core Dump文件可以分析查找问题原因。 容器一般将业务应用程序作为容器主程序,程序崩溃后容器直接退出,且被回收销毁,因此容器Core
everest.io/reclaim-policy: retain-volume-only # 可选字段,删除PV时可保留底层存储卷 name: pv-evs # PV的名称 labels: failure-domain.beta.kubernetes
界面上显示的容器内存使用率计算方式为:container_memory_rss/内存Limit container_memory_rss(即Resident Set Size,RSS)包含了部分可能并不活跃或未被有效利用的内存部分。 HPA对于内存使用率弹性伸缩的计算方式为:container_memory
elf/fd/<num>,以实现在容器运行后访问节点文件系统。 工作负载的容器镜像来源不可信,攻击者拥有修改源镜像权限,将镜像中WORKDIR设置为/proc/self/fd/<num>,以实现在容器运行后访问节点文件系统。 漏洞影响 满足上述漏洞利用条件时,容器进程可能逃逸到节点,导致节点信息泄露或执行恶意命令。
编辑Drainage资源的YAML。 Drainage-test.yaml示例如下: apiVersion: node.cce.io/v1 kind: Drainage metadata: name: 192.168.1.67-1721616409999 #Drainage资源名称