检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
升级管控检查异常处理 检查项内容 检查集群是否处于升级管控中。 解决方案 CCE基于以下几点原因,可能会暂时限制该集群的升级功能: 基于用户提供的信息,该集群被识别为核心重点保障的生产集群。 正在或即将进行其他运维任务,例如Master节点3AZ改造等。 集群中存在容器引擎为Do
节点内存检查异常处理 检查项内容 检查节点内存使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
节点Sudo检查异常处理 检查项内容 检查当前节点sudo命令,sudo相关文件是否正常。 解决方案 问题场景一:sudo命令执行失败 集群原地升级过程中依赖sudo命令正常可用,请登录节点执行如下命令,排查sudo命令可用性。 sudo echo hello 如果sudo命令不
Volcano调度器 CCE密钥管理(对接 DEW) CCE容器网络扩展指标 节点本地域名解析加速 云原生监控 云原生日志采集 父主题: API
获取指定的节点 功能介绍 该API用于通过节点ID获取指定节点的详细信息。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{pro
获取集群升级路径 功能介绍 获取集群升级路径 调用方法 请参见如何调用API。 URI GET /api/v3/clusterupgradepaths 请求参数 表1 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 参数解释: 消息体的类型(格式)
RL格式时必须指定此参数。获取方式请参见如何获取接口URI中参数。 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 apiVersion String API版本,固定值v1 kind String API类型,固定值PersistentVolumeClaim
工作负载异常:已停止 问题现象 工作负载的状态为“已停止”。 问题原因: 工作负载的yaml的中metadata.enable字段为false,导致工作负载被停止,Pod被删除导致工作负载处于已停止状态,如下图所示: 解决方案 将enable字段删除或者将false修改为true。
工作负载异常:OOM问题 问题现象 若因OOM被终止的进程为容器的阻塞进程,可能会导致容器异常重启。 问题原因 容器不允许使用超过其限制的内存,超过后容器可能会被终 止,触发OOM(Out Of Memory)事件,导致容器异常退出。关于OOM事件,可以参考为容器和Pod分配内存资源。
集群升级后确认 功能介绍 集群升级后确认,该接口建议配合Console使用,主要用于升级步骤完成后,客户确认集群状态和业务正常后做反馈。 调用方法 请参见如何调用API。 URI POST /api/v3/projects/{project_id}/clusters/{clust
获取任务信息 功能介绍 该API用于获取任务信息。通过某一任务请求下发后返回的jobID来查询指定任务的进度。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径 该接口通常使用场景为: 创建、删除集群时,查询相应任务的进度。
ecret 当工作负载状态异常并显示“实例拉取镜像失败”的K8s事件时,请排查yaml文件中是否存在imagePullSecrets字段。 排查事项: 当Pull SWR容器镜像仓库的镜像时,name参数值需固定为default-secret。 apiVersion: extensions/v1beta1
节点迁移 功能介绍 该API用于在指定集群下迁移节点到另一集群。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 接口约束 仅支持在同一VPC、同一项目下的不同集群间进行迁移。 CCE Turbo集群和CCE Standard集群间不支持互迁。
创建节点 功能介绍 该API用于在指定集群下创建节点。 若无集群,请先创建集群。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 接口约束 仅支持创建KVM虚拟化类型的节点,非KVM虚拟化类型的节点创建后无法正常使用。
调用方法 请参见如何调用API。 URI GET /cce/cam/v3/clusters/{cluster_id}/releases 表1 路径参数 参数 是否必选 参数类型 描述 cluster_id 是 String 参数解释: 集群ID,获取方式请参见如何获取接口URI中参数。 约束限制:
节点Python命令检查异常处理 检查项内容 检查Node节点中Python命令是否可用。 检查方式 /usr/bin/python --version echo $? 如果回显值不为0证明检查失败。 解决方案 可优先重置节点或手动安装Python之后再进行升级。 父主题: 升级前检查异常问题排查
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer
配置集群日志 功能介绍 用户可以选择集群管理节点上哪些组件的日志上报LTS 调用方法 请参见如何调用API。 URI PUT /api/v3/projects/{project_id}/cluster/{cluster_id}/log-configs 表1 路径参数 参数 是否必选
获取集群访问的地址 功能介绍 该API用于通过集群ID获取集群访问的地址,包括PrivateIP(HA集群返回VIP)与PublicIP 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 调用方法 请参见如何调用API。 URI GET
获取集群下所有节点 功能介绍 该API用于通过集群ID获取指定集群下所有节点的详细信息。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 调用方法 请参见如何调用API。 URI GET /api/v3/projects/