检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集插件支持基于CRD的日志采集策略,可以根据您配置的策略规则,对集群中的容器标准输出日志、容器文件日志、节点日志及K8s事件日志进行采集与转发。 CCE节点故障检测 CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,
创建subpath类型SFS Turbo存储卷 创建SFS Turbo资源,选择网络时,请选择与集群相同的VPC与子网。 新建一个StorageClass的YAML文件,例如sfsturbo-subpath-sc.yaml。 配置示例: apiVersion: storage.k8s.io/v1 allowVolumeExpansion:
通用文件存储(SFS 3.0)在OS中的挂载点修改属组及权限报错 现象描述 将通用文件存储(SFS 3.0)挂载到OS中某个目录后,该目录成为通用文件存储(SFS 3.0)的挂载点,使用chown和chmod命令尝试修改挂载点的属组或权限,会遇到以下报错: chown: changing
挂载文件存储的节点,Pod创建删除卡死 故障现象 在挂载文件存储(SFS或SFS Turbo)的节点上,删除Pod卡在“结束中”,创建Pod卡在“创建中”。 可能原因 后端文件存储被删除,导致无法访问挂载点。 节点与文件存储间网络异常,导致无法访问挂载点。 解决方案 登录挂载文件存
并存储属主和属组均为paas的文件数据。 当前集群升级流程会将/var/paas路径下的文件的属主和属组均重置为paas。 请您参考下述命令排查当前业务Pod中是否将文件数据存储在/var/paas路径下,修改避免使用该路径,并移除该路径下的异常文件后重试检查,通过后可继续升级。
参数 描述 存储卷声明类型 本文中选择“极速文件存储”。 PVC名称 输入PVC的名称,同一命名空间下的PVC名称需唯一。 创建方式 选择“动态创建子目录”。 存储类 选择极速文件存储对应的存储类为csi-sfsturbo。 访问模式 极速文件存储类型的存储卷仅支持ReadWrite
检查连接跟踪表是否满 FrequentKubeletRestart 检测kubelet频繁重启 FrequentDockerRestart 检测docker频繁重启 FrequentContainerdRestart 检测containerd频繁重启 CRIProblem 检查容器CRI组件状态
节点上的ntpd在长时间无法连接ntpserver等特殊场景下,可能导致偏移量过大,无法自动恢复。 问题检测 CCE节点故障检测插件(npd)中已包含节点时间同步检查项,您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。 问题根因 EulerOS和CentOS类型的节点存在由NTP引起的已知问题,其他类型的节点不涉及该问题。
业务容器内存使用超过容器的内存限制量时,触发cgroup OOM,被系统内核终止。容器cgroup OOM在CentOS 7会偶现触发ext4文件系统卡死,ext4/jbd2会因为死锁而永远挂起。在文件系统上执行I/O的所有任务都将受到影响。 解决方法 临时解决方案:该问题触发后可以通过重启节点临时恢复。 长久解决方案:
登录到CCE集群的ECS节点,查询存在大量npd进程。 解决方案 升级CCE节点故障检测(简称NPD)插件至最新版本。 登录CCE控制台,进入集群,在左侧导航栏中选择“插件中心”,单击CCE节点故障检测下的“升级”。 如果CCE节点故障检测插件版本已经为1.13.6及以上版本,则不需要进行升级操作。
节点,离线作业优先调度到超卖节点。 在线作业预选超卖节点时只能使用其非超卖资源 在线作业只能使用超卖节点的非超卖资源,离线作业可以使用超卖节点的超卖及非超卖资源。 同一调度周期在线作业先于离线作业调度 在线作业和离线作业同时存在时,优先调度在线作业。当节点资源使用率超过设定的驱逐
网络优先级限制 CCE Turbo集群支持在离线Pod的网络优先级限制,以实现出口网络带宽保障,可平衡在线业务与离线业务对出口网络带宽的使用,保证在线业务有足够的网络带宽,在线业务触发阈值时,压缩离线业务带宽使用。 商用 7 CCE Turbo集群支持命名空间关联容器网段 CCE
当集群状态为“可用”,而集群中部分节点状态为“不可用”时,请参照本文提供的排查思路解决。 节点不可用检测机制说明 Kubernetes 节点发送的心跳确定每个节点的可用性,并在检测到故障时采取行动。检测的机制和间隔时间详细说明请参见心跳。 排查思路 以下排查思路根据原因的出现概率进行排序,建
节点CCE Agent版本检查异常处理 检查项内容 检测当前节点的CCE包管理组件cce-agent是否为最新版本。 解决方案 问题场景一: 错误信息为“you cce-agent no update, please restart it”。 该问题为cce-agent无需更新,
表1 受限的everest插件版本 插件名称 涉及版本 everest v1.0.2-v1.0.7 v1.1.1-v1.1.5 解决方案 检测到当前everest版本存在兼容性限制,无法随集群升级,请联系技术支持人员。 父主题: 升级前检查异常问题排查
client-certificate-data String 客户端证书。 client-key-data String 包含来自TLS客户端密钥文件的PEM编码数据。 表8 Contexts 参数 参数类型 描述 name String 上下文的名称。 若不存在publicIp(虚拟机
ubPath volume挂载的容器,访问卷外的文件和目录,包括主机文件系统上的文件和目录。 容器使用subPath去挂载一些文件或者目录时,攻击者可能利用Symlink Exchange 访问除挂载目录之外的目录或者主机上的文件,造成越权。 表1 漏洞信息 漏洞类型 CVE-ID
sification.ipynb的过程。 OBS存储数据预置 创建OBS桶,并确认以下文件夹已创建,文件已上传至指定位置(需要使用OBS Browser工具)。 例如:桶内文件路径/文件名,文件下载地址可至github中指定项目的指定路径下查找,示例如1、2所示。 models/
y-obs/。请务必修改OBS桶名称及目录为正确值。 修改~/spark-obs/conf/spark-env.sh文件,如果该文件不存在,使用命令复制模板为文件。 cp ~/spark-obs/conf/spark-env.sh.template ~/spark-obs/conf/spark-env
/usr/local/bin 获取kubectl配置文件 在集群总览页中的“连接信息”版块,单击kubectl后的“配置”按钮,查看kubectl的连接信息,并在弹出页面中选择“内网访问”或“公网访问”,然后下载对应的配置文件。 图2 下载配置文件 kubectl配置文件(kubeconfig)用于对