检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
排查其他可能原因。 排查项一:节点是否存在资源压力 排查项二:是否在实例上设置了tolerations 排查项三:是否满足停止驱逐实例的条件 排查项四:容器与节点上的“资源分配量”是否一致 排查项五:工作负载实例不断失败并重新部署 排查项一:节点是否存在资源压力 当满足硬性或软性
CCE启动实例失败时的重试机制是怎样的? CCE是基于原生Kubernetes的云容器引擎服务,完全兼容Kubernetes社区原生版本,与社区最新版本保持紧密同步,完全兼容Kubernetes API和Kubectl。 在Kubernetes中,Pod的spec中包含一个res
工作负载异常:实例无法写入数据 Pod事件 Pod所在的节点文件系统损坏,新建的Pod无法成功在/var/lib/kubelet/device-plugins/.xxxxx写入数据,Pod通常会出现以下类似事件: Message: Pod Update Plugin resources
claimName: cce-sfs-demo 表1 关键参数说明 前置路径 参数 描述 spec replicas 实例数。 metadata name 新建工作负载的名称。 spec.template.spec.containers image 新建工作负载使用的镜像。
复制节点池 通过CCE控制台可以方便地复制现有节点池的配置,从而创建新的节点池。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 单击节点池名称后的“更多 > 复制”。 图1 复制节点池 在弹出的“复制节点池”窗口中,可以看到复制的节
test updateStrategy: type: RollingUpdate 表1 关键参数说明 参数 描述 replicas 实例数。 name 新建工作负载的名称。 image 新建工作负载使用的镜像。 mountPath 容器内挂载路径。 serviceName
工作负载异常问题排查 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态
如果首选规格因可用区资源售罄或配额不足等原因创建失败,将按照节点池内规格优先级的顺序,尝试创建下一个优先级的规格,原实例进入5分钟的冷却时间。 如果一个节点池中的所有规格都无法成功创建实例,系统将顺延至下一个优先级的节点池继续尝试。 手动扩容策略 当节点池进行手动扩缩容时,您可选择指定的规格
定当前的PersistentVolume使用。 约束与限制 如下配置示例适用于Kubernetes 1.13及以下版本的集群。 操作步骤 登录SFS控制台,创建一个文件存储,记录文件存储的ID、共享路径和容量。 请参见通过kubectl连接集群,使用kubectl连接集群。 新建
节点上开启了GPU虚拟化且有多张GPU卡时,如果GPU资源不足,不支持抢占其他Pod的GPU资源。 创建GPU虚拟化应用 通过控制台创建 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”,在右上角单击“创建工作负载”。 配置工作负载信息。 在“容器配置>基本信息”中设置xGPU配额:
已通过kubectl连接集群,详情请参见通过kubectl连接集群。 步骤一:安装云原生监控插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”。 在“插件中心”页面右侧找到云原生监控插件,单击“安装”。 建议您关注以下配置,其他配置可按需进行设置。详情请参见云原生监控插件。
修改节点内核参数 由于默认的Linux内核参数不一定符合所有用户场景,用户可通过修改节点上的/etc/sysctl.conf配置文件来更改内核参数。 修改节点系统参数的命令仅在使用公共镜像时有效,使用私有镜像时本文中提供的命令仅供参考。 节点重启后需执行sysctl -p用于刷新参数值。
4.41)支持使用量监控。 极速文件存储类型的PVC支持使用量监控(包括子目录场景,但子目录PVC采集到的使用量和容量与SFS Turbo实例的使用量和容量一致)。 挂载到普通容器的PVC支持采集使用量及inodes数据,挂载至安全容器PVC不支持。 指标说明 PVC视图暴露的指标如下:
使用kubectl对接已有文件存储 约束与限制 如下配置示例适用于Kubernetes 1.13及以下版本的集群。 操作步骤 登录SFS控制台,创建一个文件存储,记录文件存储的ID、共享路径和容量。 请参见通过kubectl连接集群,使用kubectl连接集群。 新建两个yaml
NoSchedule 已运行在该节点的Pod不会被驱逐。 未运行的Pod不会被调度到该节点。 Pod可以在这个节点上一直运行。 通过控制台配置容忍策略 登录CCE控制台。 在创建工作负载时,在“高级设置”中找到“容忍策略”。 添加污点容忍策略。 表1 容忍策略设置参数说明 参数名 参数描述 污点键
部分指标模板依赖CCE节点故障检测插件(NPD)进行上报,指标详情请参见表1。如需要使用相关的告警规则,请确保节点故障检测插件(NPD)已安装且正常运行。 登录CCE控制台,单击集群名称进入一个已有的集群。 在左侧导航栏选择“告警中心”,切换至“告警规则 > 自定义告警规则”页签,单击“创建告警规则”。
迟2天显示。 使用成本洞察期间,需要保证云原生监控插件运行正常,否则影响成本洞察中命名空间、工作负载、节点池等相关视图的呈现。 操作入口 登录CCE控制台,单击集群名称进入集群。 单击左侧导航栏中的“云原生成本治理 > 成本洞察”。 在洞察界面,进行成本优化分析。 图1 单集群视角的成本洞察
如果创建节点时没有导入临时存储卷,或当前存储卷容量不够,可以进行手动导入。 前往ECS控制台为节点添加SCSI类型的磁盘。操作步骤详情请参见新增磁盘。 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“存储”,并切换至“存储池”页签。 查看已添加磁盘的节点,选择“导入临时卷”,导入时可以选择写入模式。
如果创建节点时没有导入持久存储卷,或当前存储卷容量不够,可以进行手动导入。 前往ECS控制台为节点添加SCSI类型的磁盘。操作步骤详情请参见新增磁盘。 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“存储”,并切换至“存储池”页签。 查看已添加磁盘的节点,选择“导入持久卷”,导入时可以选择写入模式。
当Pod使用节点网络(hostNetwork)时,使用出口网络保障功能无法生效。 操作步骤 下面介绍如何开启或关闭出口网络带宽保障。 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“节点管理”,在需要开启出口网络带宽保障的节点池中,单击“更多 > 混部配置”。