检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
TCP连接在关闭状态下等待的时间 处于 CLOSE_WAIT 状态的空闲 conntrack 条目在 conntrack 表中保留的时间 参数名 取值范围 默认值 是否允许修改 作用范围 conntrack-tcp-timeout-close-wait 大于等于0 1h0m0s 允许 CCE
4层负载均衡支持健康检查,7层负载均衡支持健康检查/分配策略/会话保持 CCE集群支持创建裸金属节点(容器隧道网络) 支持AI加速型节点(搭载海思Ascend 310 AI处理器),适用于图像识别、视频处理、推理计算以及机器学习等场景 支持配置docker baseSize 支持命名空间亲和调度 支持节点数据盘划分用户空间
4层负载均衡支持健康检查,7层负载均衡支持健康检查/分配策略/会话保持 CCE集群支持创建裸金属节点(容器隧道网络) 支持AI加速型节点(搭载海思Ascend 310 AI处理器),适用于图像识别、视频处理、推理计算以及机器学习等场景 支持配置docker baseSize 支持命名空间亲和调度 支持节点数据盘划分用户空间
节点镜像层数量异常检查 检查项内容 检查到您的节点上镜像层数量过多(>5000层),可能导致docker/containerd启动过慢,影响docker/containerd标准输出。 如果您集群中使用了nginx,可能会出现转发变慢等问题。 解决方案 请登录节点手动删除用不到的镜像,防止后续升级异常。
GPU监控指标说明 CCE AI套件(NVIDIA GPU)插件提供GPU监控指标,并集成了dcgm-exporter组件(要求插件版本2.7.32+),引入更丰富的GPU可观测性场景。本文介绍CCE AI套件(NVIDIA GPU)插件指标的详细信息。 计费说明 GPU指标作为
故障现象 在使用containerd容器引擎场景下,拉取镜像到节点时,概率性缺少镜像层,导致工作负载容器创建失败。 问题根因 docker v1.10 之前支持mediaType 为 application/octet-stream 的layer,而containerd不支持appl
CCE容器存储插件(Everest) 插件介绍 CCE容器存储(Everest)插件基于CSI(即Container Storage Interface)为Kubernetes 集群对接云存储服务的能力。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object
周期,这意味着即使使用PV的Pod被删除,PV中的数据也不会丢失。 存储声明(PersistentVolumeClaim) PersistentVolumeClaim (PVC) 用户对存储资源PV的请求,它指定了存储的大小、访问模式等要求,Kubernetes会自动匹配合适的PV来满足这些要求。
新建Pod检查 检查内容 检查集群升级后,存量节点是否能新建Pod。 检查集群升级后,新建节点是否能新建Pod。 检查步骤 基于新建节点检查创建了新节点后,通过创建DaemonSet类型工作负载,在每个节点上创建Pod。 登录CCE控制台,单击集群名称进入集群。 在导航栏中选择“
务部署在企业原有的IDC,该企业同时购买了华为云图像识别服务。CCE所在的VPC和原有的IDC之间通过专线进行连接。部署架构如图1所示。 当用户访问该企业的APP时,不同微服务之间涉及到如下交互: CCE集群访问华为云图像识别服务时,默认使用华为云域名解析服务器。 CCE集群访问
表示按照Job的minAvailable进行抢占。 false:表示按照Job的replicas进行抢占。 说明: Kubernetes原生工作负载(如Deployment)的minAvailable默认值为1,建议配置enableJobStarving: false。 AI大数据场景,创建
ubelet和containerd运行时服务。 登录需要更新GPU驱动的节点,如192.168.1.xx。 停止服务(containerd运行时) systemctl stop kubelet kubelet-monit containerd containerd-monit 停止服务(docker运行时)
查看是否存在排水任务,以下为正常回显: kubectl get drainage 图1 排水任务,以下回显表示存在排水任务 请将drainage资源进行删除,删除之后再次触发升级前检查。 执行以下命令删除排水任务。 kubectl delete drainage {排水任务名称} 父主题: 升级前检查异常问题排查
检查项内容 检查集群是否处于升级管控中。 解决方案 CCE基于以下几点原因,可能会暂时限制该集群的升级功能: 基于用户提供的信息,该集群被识别为核心重点保障的生产集群。 正在或即将进行其他运维任务,例如控制节点3AZ改造等。 集群中存在容器引擎为Docker但OS与节点池配置不同
如何设置容器umask值? 问题描述 tailf /dev/null的方式启动容器,然后手动执行启动脚本的方式得到的目录的权限是700,而不加tailf由Kubernetes自行启动的方式得到的目录权限却是751。 解决方案 这个问题是因为两种方式设置的umask值不一样,所以创建出来的目录权限不相同。
系统插件多可用区部署 自动弹性伸缩 日志监控告警 集群Master节点多可用区 华为云支持多区域(Region),每个区域下又有不同的可用区(AZ,Availability Zone)。可用区是一个或多个物理数据中心的集合,有独立的风火水电。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。
持。 解决方案 若您的节点池的运行时非containerd,您可通过更新节点池功能将节点池的运行时修改为containerd。 如果您仍想在1.27以上集群中创建并使用docker节点池,可跳过该告警,但推荐您尽快切换至containerd,它提供了更出色的用户体验和更强大的功能。
r的支持。 解决方案 若您的节点的运行时非containerd,您可通过节点重置功能重置节点的运行时为containerd。 如果您仍想在1.27以上集群中创建并使用docker节点,可跳过该告警,但推荐您尽快切换至containerd,它提供了更出色的用户体验和更强大的功能。 父主题:
Worker: replicas: 2 restartPolicy: OnFailure template: spec: containers: - name: tensorflow
top node命令为何报错 故障现象 执行kubectl top node命令报错Error from server (ServiceUnavailable): the server is currently unable to handle the request (get nodes