检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
yaml”的YAML文件,此处文件名可自定义。 vi ingress-test.yaml 以关联已有ELB为例,YAML文件配置如下: apiVersion: networking.k8s.io/v1 kind: Ingress metadata: name: test namespace:
t)和节点动态预热容器网卡数(nic-warm-target)两个参数配置,且不支持节点池级别的差异化配置。 请通过console页面或API修改容器网卡动态预热参数配置,请勿直接后台修改节点annotations上对应的容器网卡动态预热参数,集群升级后,后台直接修改的annotations会被覆盖为原始的值。
启驱动选择时,如从控制台创建NPU节点,控制台会自动补充NPU驱动(用户无法指定版本和类型)安装命令,并在安装完成后自动重启节点;如通过API或其他方式创建节点则需要用户在“安装后执行脚本”中添加驱动安装命令。 支持的NPU卡类型和对应的操作系统规格如下: NPU卡类型 支持的操作系统
CronHPA查询关联HPA失败 FailedGetHorizontalPodAutoscaler 重要 CronHPA查询关联的HPA对象失败(通常是kube-apiserver侧响应失败)。 CronHPA CronHPA查询伸缩对象失败 FailedGetHpaScale 重要 CronHPA获取待伸缩资源对象失败。
告警中心FAQ 如何停止接收告警? 在“告警中心 > 默认联系组”页面对确认订阅的终端,执行删除即可。 图1 删除联系组 为什么告警清除之后还会继续发送告警? 告警清除仅清除告警规则页面的统计,如该告警持续达到阈值或者异常事件持续发生,仍会产生告警。 告警中心的联系组支持钉钉、飞书等么?
仅支持使用Docker容器引擎: Docker in Docker(通常在CI场景)。 节点上使用Docker命令。 调用Docker API。 节点操作系统 由于业务容器运行时共享节点的内核及底层调用,为保证兼容性,建议节点的操作系统选择与最终业务容器镜像相同或接近的Linux发行版本。
后,时间变为凌晨1点,可能导致节点不可用。 问题根因 节点内证书的生效时间在未来,而不是当前时间,在证书未生效时,会导致节点对kube-apiserver的请求被拒绝。 解决方案 登录节点,执行以下命令查看证书。 ll /opt/cloud/cce/kubernetes/kubelet/pki
v1.21 v1.23 v1.25 v1.27 支持xGPU设备监控 支持nvidia.com/gpu与volcano.sh/gpu-* api兼容 2.0.5 v1.19 v1.21 v1.23 v1.25 - 2.0.0 v1.19 v1.21 v1.23 v1.25 支持GPU虚拟化
云容器引擎基于业界主流的Kubernetes实现,完全兼容Kubernetes/Docker社区原生版本,与社区最新版本保持紧密同步,完全兼容Kubernetes API和Kubectl。 云容器引擎对比自建Kubernetes集群 表1 云容器引擎和自建Kubernetes集群对比 对比项 自建Kubernetes集群
若集群内存在其他正常节点,可通过ping命令检查跨节点容器之间的网络连通性。 创建一个测试容器,示例如下,其中{node_ip}为该异常节点的IP。 kind: Pod apiVersion: v1 metadata: name: nginx namespace: default spec: containers:
如何设置CCE集群中的VPC网段和子网网段? VPC中的子网网段一旦创建,便无法更改。创建虚拟私有云时,请预留一定的VPC网段和子网网段资源,避免后续无法扩容。 子网网段可在“创建虚拟私有云”页面的“子网配置 > 子网网段”中进行设置。在设置选项下可查看到“可用IP数”。 容器网
插件检查异常处理 检查项内容 当前检查项包括以下内容: 检查插件状态是否正常 检查插件是否支持目标版本 解决方案 问题场景一:插件状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“插件中心”处查看并处理处于异常状态的插件。 图1 查看插件状态 问题场景二:集群升级的目标版本已经不支持该插件
122、1.25.117、1.27.85、1.28.52、1.29.14及以上版本的插件中可用。 priority可通过Console/API主动配置节点池/伸缩组优先级,least-waste则在通用场景下降低资源浪费比例。在此基础上,topology-balance策略可以尽
加密磁盘的快照数据以加密方式存放,非加密磁盘的快照数据以非加密方式存放。 插件限制 CCE插件采用Helm模板方式部署,修改或升级插件请从插件配置页面或开放的插件管理API进行操作。请勿直接后台修改插件相关资源,以免插件异常或引入其他非预期问题。 CCE集群配额限制 针对每个用户,云容器引擎的集群在每个地域分配了固定配额。
2为默认模式表示当前卡还没被用于XGPU设备分配 xgpu_device_health Gauge XGPU设备的健康情况。当前虚拟化域侧并没有提供特定的接口来检查XGPU的健康情况,所以根据XGPU设备所在物理GPU设备的健康情况反推。0表示XGPU设备为健康状态,1表示为非健康状态。 父主题:
集群诊断 云容器引擎CCE服务提供一键集群诊断能力,包括集群诊断、节点诊断、工作负载诊断、核心插件诊断和外部依赖诊断,可以辅助您定位集群中出现的问题。本文介绍如何在集群中使用集群诊断功能。 前提条件 已获取资源权限。 集群版本高于v1.17。 集群处于“运行中”状态。 功能入口
集群与虚拟私有云、子网的关系是怎样的? “虚拟私有云”类似家庭生活中路由器管理192.168.0.0/16的私有局域网,是为用户在云上构建的一个私有网络,是弹性云服务器、负载均衡、中间件等工作的基本网络环境。根据实际业务需要可以设置不同规模的网络,一般可为10.0.0.0/8~24,172
entage_used数据 CCE指标在显示GPU数据时会同步显示xgpu指标数据,其中XGPU数据会通过gpu_index标签进行区分,格式为{gpu_index="M|N"},M为GPU卡序号(gpu_index),N为该卡上的XGPU实例序号(xgpu_index)。您可以
linux内核导致的容器逃逸漏洞公告(CVE-2022-0492) 漏洞详情 在某些场景下linux内核cgroup v1的release_agent特性存在可以被利用在容器内逃逸到OS上的安全问题,该问题已被收录为CVE-2022-0492。 表1 漏洞信息 漏洞类型 CVE-ID
集群内部是否可以正常访问 您可以在CCE控制台界面或者使用kubectl命令查找Pod的IP,然后登录到集群内的节点或容器中,使用curl命令等方法手动调用接口,查看结果是否符合预期。 如果容器IP+端口不能访问,建议登录到业务容器内使用“127.0.0.1+端口”进行排查。 登录容器的操作步骤请参见登录容器的方法。