检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点OS镜像使用了Ubuntu。 EulerOS 2.5 和CentOS 7.6的集群节点不受该漏洞影响。 漏洞修复方案 容器内进程使用非root用户启动的进程可以通过为工作负载配置安全计算模式seccomp,建议配置RuntimeDefault模式或者禁用unshare等系统调用。具体配置方法可参考社区官方资料使用
为什么kubectl top命令查看节点内存使用超过100%? 问题现象 从界面上看节点内存使用率并不是很高,但使用kubelet top node查看节点内存使用率已超过100%。 NAME CPU(cores) CPU% MEMORY(bytes)
创建工作负载 创建无状态负载(Deployment) 创建有状态负载(StatefulSet) 创建守护进程集(DaemonSet) 创建普通任务(Job) 创建定时任务(CronJob) 父主题: 工作负载
xlsx”格式,文件命名中包含时间戳。 单击Pod名称可以查看Pod的详细监控数据。更多相关内容,请参见Pod监控。 监控 在此处,您可以方便地查看节点在近1小时、近8小时、近24小时以及自定义时间段内各维度资源的使用情况。如需查看更多监控信息,请单击“查看全部仪表盘”,跳转至“仪表盘”页面,相应指导请参见使用仪表盘。
云原生日志采集插件 NodeNotReady 节点进程D异常 检查节点是否存在D进程 指标类 云原生监控插件 节点故障检测插件 problem_gauge{type="ProcessD"} >= 1 节点进程Z异常 检查节点是否存在Z进程 指标类 云原生监控插件 节点故障检测插件 p
v1.21 v1.23 v1.25 NPC最大可打污点节点数支持百分比配置 新增进程Z状态检查项ProcessZ 优化NTPProblem检查项,支持检测时间偏差 修复BMS节点场景存在常驻D状态进程,干扰ProcessD检查项 0.8.10 1.17.2 v1.17 v1.19
在节点上未正常启动。 检查kube-system命名空间下名为everest-csi-driver的守护进程,查看对应Pod是否正常启动,若未正常启动,删除该Pod,守护进程会重新拉起该Pod。 排查项八:检查节点thinpool空间是否充足 节点在创建时会绑定一个供kubele
节点系统参数优化 可优化的节点系统参数列表 修改节点日志缓存内存占用量上限RuntimeMaxUse 修改最大文件句柄数 修改节点内核参数 修改节点进程 ID数量上限kernel.pid_max 父主题: 节点运维
工作负载异常:Pod一直处于Terminating状态 问题描述 查询某个命名空间下的工作负载时,偶现部分Pod(实例)一直处于Terminating 状态。 例如,查询aos命名空间下的Pod: #kubectl get pod -n aos NAME
e,以及AUFS类的Union FS等技术,对进程进行封装隔离,属于操作系统层面的虚拟化技术。由于隔离的进程独立于宿主和其它的隔离的进程,因此也称其为容器。 Docker在容器的基础上,进行了进一步的封装,从文件系统、网络互联到进程隔离等,极大的简化了容器的创建和维护。 传统虚拟
排查思路: 确认节点标签是否已经打上nvidia资源。 查看nvidia驱动运行是否正常。 到插件运行所在的节点上,查看驱动的安装日志,路径如下所示: /opt/cloud/cce/nvidia/nvidia_installer.log 查看nvidia容器标准输出日志: 过滤容器id docker
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
nvidia-gpu-devi /dev/nvidiactl: root 12192 F.... nvidia-gpu-devi 删除进程,上例中的进程号是12192,运行命令:sudo kill 12192 # sudo kill 12192 # sudo fuser -v /dev/nvidia*
关于对象存储的详细介绍,请以对象存储类别为准。 性能说明 容器负载挂载对象存储时,每挂载一个对象存储卷,后端会产生一个常驻进程。当负载使用对象存储数过多或大量读写对象存储文件时,常驻进程会占用大量内存,部分场景下内存消耗量参考表1,为保证负载稳定运行,建议负载使用的对象存储卷数量不超过其申请的
模板插件 插件异常问题排查 集群安装nginx-ingress插件失败,一直处于创建中? NPD插件版本过低导致进程资源残留问题 模板格式不正确,无法删除模板实例? CCE是否支持nginx-ingress? 插件安装失败,提示The release name is already
完成备份或者迁移,退订完成后云资源将被删除,数据无法找回,请谨慎操作。 页面中间有关于5天无理由退订的已退订次数和剩余退订次数提示,请注意查看。 进入“云服务退订”页面。 单击“退订使用中的资源”页签。 单个资源退订与批量退订可使用不同的操作方式: 退订单个资源:单击待退订资源所在行的“退订资源”。
定的VPC网段和子网网段资源,避免后续无法扩容。 子网网段可在“创建虚拟私有云”页面的“子网配置 > 子网网段”中进行设置。在设置选项下可查看到“可用IP数”。 容器网段掩码如果设置不合适,会导致集群实际可用的节点较少。 例如: 节点规模为1000,子网可以选择192.168.0
nginx-deployment.yaml 回显如下表示已开始创建deployment。 deployment "nginx" created 查看deployment状态。 kubectl get deployment deployment状态显示为Running,表示deployment已创建成功。
根据节点配置变化 Pod中最大进程数 Pod中可创建最大进程数 参数名 取值范围 默认值 是否允许修改 作用范围 pod-max-pids 无 -1 允许 CCE Standard/CCE Turbo Pod 中可创建的最大进程数,默认值-1,pod 可创建进程数受限于节点pid容量 配置建议:
求自动进行伸缩。 使用容器隔离进程 容器可以提供进程级别的隔离,每个容器都有自己的文件系统、网络和资源分配,可以避免不同进程之间相互干扰,也可以避免恶意进程的攻击和数据泄露。使用容器隔离进程可以提高应用程序的可靠性、安全性和可移植性。 如果有几个进程需要协同工作,可以在一个Pod