检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点Python命令检查异常处理 检查项内容 检查Node节点中Python命令是否可用。 检查方式 /usr/bin/python --version echo $? 如果回显值不为0证明检查失败。 解决方案 可优先重置节点或手动安装Python之后再进行升级。 父主题: 升级前检查异常问题排查
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer -nkube-system
间操作集群。 自定义 SAN:主题备用名称(SAN)允许将多种值(包括IP地址、域名等)与证书关联,在集群访问证书中签入自定义SAN后,可以通过SAN定义的域名或IP访问集群。详情请参见通过自定义域名访问集群。 此操作将会短暂重启 kube-apiserver 并更新集群访问证书
HPA是针对Pod级别的,但是如果集群的资源不够了,那就只能对节点进行扩容了。集群节点的弹性伸缩本来是一件非常麻烦的事情,但是好在现在的集群大多都是构建在云上,云上可以直接调用接口添加删除节点,这就使得集群节点弹性伸缩变得非常方便。 Cluster Autoscaler是Kubernetes提供的集群节点弹
本,如果您仍在使用1.9.7或1.9.10版本集群,请尽快升级到较新版本集群,CCE预计将在2021年4月30日后关闭对应升级通道,请您务必在此之前升级您的Kubernetes集群。 升级方法请参见集群版本升级说明。 父主题: 集群版本公告
继续执行集群升级任务(已废弃) 功能介绍 继续执行被暂停的集群升级任务。 集群升级涉及多维度的组件升级操作,强烈建议统一通过CCE控制台执行交互式升级,降低集群升级过程的业务意外受损风险; 当前集群升级相关接口受限开放。 调用方法 请参见如何调用API。 URI POST /ap
内部错误异常处理 检查项内容 该检查非常规检查项,表示升级前检查流程中出现了内部错误。 解决方案 该问题出现后,请您优先重试升级前检查; 若重试升级前检查仍失败,请您提交工单,联系技术支持人员。 父主题: 升级前检查异常问题排查
中挂载路径下的数据会存储在存储卷的tmp文件夹中。不填写时默认为根路径。 权限 只读:只能读容器路径中的数据卷。 读写:可修改容器路径中的数据卷,容器迁移时新写入的数据不会随之迁移,会造成数据丢失。 本例中将磁盘挂载到容器中/data路径下,在该路径下生成的容器数据会存储到云硬盘中。
节点上的Pod每秒发送的字节数 接收数据包速率 个/秒 节点上的Pod每秒接收的数据包个数 发送数据包速率 个/秒 节点上的Pod每秒发送的数据包个数 丢包速率(接收) 个/秒 节点上的Pod每秒接收丢失的数据包个数 丢包速率(发送) 个/秒 节点上的Pod每秒发送丢失的数据包个数 图3 节点磁盘指标
挂载路径下的数据会存储在存储卷的tmp文件夹中。不填写时默认为根路径。 权限 只读:只能读容器路径中的数据卷。 读写:可修改容器路径中的数据卷,容器迁移时新写入的数据不会随之迁移,会造成数据丢失。 本例中将该存储卷挂载到容器中/data路径下,在该路径下生成的容器数据会存储到文件存储中。
ELB IPv4私网地址检查异常处理 检查项内容 检查集群内负载均衡类型的Service所关联的ELB实例是否包含IPv4私网IP。 解决方案 解决方案一:删除关联无IPv4私网地址ELB的负载均衡型Service。 解决方案二:为无IPv4私网IP地址的ELB绑定一个私网IP。步骤如下:
Ingress控制器插件日志采集的步骤如下: 集群未开通日志中心 集群已开通日志中心 如果集群未开通日志中心,您可以在开通日志中心时通过勾选“采集插件日志(NGINX Ingress控制器容器标准输出)”选项,直接创建NGINX Ingress插件的默认日志采集策略。 登录云容器引擎(CCE)控制台,单击集群名称进入集群,选择左侧导航栏的“日志中心”。
业务优先级保障调度 优先级调度与抢占 父主题: Volcano调度
AI任务性能增强调度 公平调度(DRF) 组调度(Gang) 父主题: Volcano调度
实施步骤 搭建Jenkins和Gitlab环境 配置集群环境 配置Gitlab项目 持续集成及持续部署 父主题: 使用Jenkins和Gitlab实现多集群隔离的DevOps流程
节点命令行检查异常处理 检查项内容 检查节点中是否存在升级所必须的命令。 解决方案 该问题一般由于节点上缺少集群升级流程中使用到的关键命令,可能会导致集群升级失败。 报错信息如下: __error_code#ErrorCommandNotExist#chage command is
该API用于获取任务信息。通过某一任务请求下发后返回的jobID来查询指定任务的进度。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径 该接口通常使用场景为: 创建、删除集群时,查询相应任务的进度。 创建、删除节点时,查询相应任务的进度。 调用方法
Agent采集,且监控数据需要满足Prometheus的规范。 部署应用并转换指标 在集群中使用该应用镜像部署工作负载,将自动上报自定义监控指标。 配置验证 前往AOM查看自定义指标是否采集成功。 约束与限制 ICAgent兼容Prometheus的监控数据规范,Pod提供的自定
某用户购买了一个按需计费的集群用于业务上云测试,集群中使用资源及配置如下: 表1 初始集群资源及配置 资源类型 计费开始时间 初始计费模式 初始规格配置 数量 集群 2023/03/18 15:30:00 按需计费 区域:上海一 集群规模:50节点 高可用:是 1 节点(弹性云服务器 ECS)
相关最佳实践 创建节点相关实践 制作CCE节点自定义镜像 创建节点时执行安装前/后脚本 创建节点时使用OBS桶实现自定义脚本注入 选择合适的节点数据盘大小 节点日常管理实践 存储扩容 通过Core Dump文件定位容器问题 容器与节点时区同步 将节点容器引擎从Docker迁移到Containerd