检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
工作负载异常:GPU节点部署服务报错 问题现象 在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在
控制节点组件健康检查异常处理 检查项内容 检查集群中的Kubernetes组件、容器运行时组件、网络组件等组件,要求在升级前以上组件运行正常。 解决方案 请您优先重试升级前检查; 若重试检查仍失败时,请您提交工单,联系技术支持人员进行处理。 父主题: 升级前检查异常问题排查
works well 解决办法 如果您希望继续使用该节点资源,建议重置所属集群中的CentOS 7.6节点,以升级节点上网络组件到最新版本,具体操作请参考重置节点。 如果您希望删除该隐患节点后重新购买,具体操作请参考删除节点、购买节点。 父主题: 网络异常问题排查
使用节点DNS缓存NodeLocal DNSCache 应用现状 当集群中的DNS请求量增加时,CoreDNS将会承受更大的压力,可能会导致如下影响: 延迟增加:CoreDNS需要处理更多的请求,可能会导致DNS查询变慢,从而影响业务性能。 资源占用率增加:为保证DNS性能,CoreDNS往往需要更高规格的配置。
使用Prometheus监控Master节点组件指标 本文将介绍如何使用Prometheus对Master节点的kube-apiserver、kube-controller、kube-scheduler、etcd-server组件进行监控。 通过监控中心查看Master节点组件指标 云原生监控中心
Master节点子网配额检查异常处理 检查项内容 检查本次升级集群子网剩余可用IP数量是否支持滚动升级。 解决方案 该问题一般因为您选择的集群子网的IP数量不够,无法支持滚动升级; 请您迁移对应子网中的节点之后重试检查,若您无法确认迁移影响,请您提交工单联系运维人员支撑。 父主题:
节点本地域名解析加速插件版本发布记录 表1 节点本地域名解析加速插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 1.6.62 v1.25 v1.27 v1.28 v1.29 v1.30 v1.31 支持CCE v1.31集群 1.22.20 1.6.37 v1.23 v1
04。对于EulerOS 2.9的节点,新建节点不涉及该问题,存量低版内核的节点需要升级至已修复版本,详情请参见修复计划。 使用服务转发模式为iptables的集群。 修复计划 如果您使用EulerOS 2.9的节点,请确认节点内核版本是否满足以下要求。如节点内核版本过低,可以选择重置节点或者重新创建节点解决该问题。
查询指定节点池支持配置的参数列表 功能介绍 该API用于查询CCE服务下指定节点池支持配置的参数列表。 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/clusters/{cluster_id}/nodepools/{
当集群中的Pod由于工作节点资源不足而无法调度时,会触发集群扩容,扩容节点与所在节点池资源配额一致。 此时需要满足以下条件时才会执行自动扩容: 节点上的资源不足。 Pod的调度配置中不能包含节点亲和的策略(即Pod若已经设置亲和某个节点,则不会自动扩容节点),节点亲和策略设置方法请参
oredDuringExecution,表示会根据规则优先选择哪些节点。 为演示这个效果,先为上面的集群添加一个节点,且这个节点跟另外三个节点不在同一个可用区,创建完之后查询节点的可用区标签,如下所示,新添加的节点在cn-east-3c这个可用区。 $ kubectl get node
选择集群控制平面的节点(master实例)数量。控制平面节点由系统自动托管,会部署Kubernetes集群的管控面组件,如 kube-apiserver,kube-controller-manager,kube-scheduler 等组件。 3实例(高可用):创建3个控制平面节点,确保集群高可用。
当前节点所有容器内存限制值之和 ≥ 当前节点所有容器内存申请值之和,节点的实际可用分配内存量请在“资源管理 > 节点管理”中对应节点的“可分配资源”列下查看“内存: ** GiB”。 可分配资源:可分配量按照实例申请值(Request)计算,表示实例在该节点上可请求的资源上限,不代表节点实际可用资源(请参见CPU和内存配额使用示例)。
VPC的子网无法删除,怎么办? VPC的子网无法删除可能是因为您在CCE的集群中使用了该VPC的子网,因此需要在CCE界面删除相应的集群后,再删除VPC的子网。 删除集群会将集群内的节点以及运行的工作负载和服务都销毁,请谨慎操作。 不建议在ECS界面删除CCE集群中的节点。 父主题: 网络异常问题排查
Volcano调度分为两个阶段,分别为节点过滤和节点优选,过滤阶段筛选出符合调度条件的节点,优选阶段对所有符合调度条件的节点打分,最终选取得分最高的节点进行调度。Volcano提供多种调度策略进行节点打分优选,每种调度策略可以根据实际业务场景调整对应的权重值,提高或降低该策略在节点打分过程中的影响性。
设置镜像拉取策略 创建工作负载会从镜像仓库拉取容器镜像到节点上,当前Pod重启、升级时也会拉取镜像。 默认情况下容器镜像拉取策略imagePullPolicy是IfNotPresent,表示如果节点上有这个镜像就直接使用节点已有镜像,如果没有这个镜像就会从镜像仓库拉取。 容器镜像
录工作节点时的身份验证。 如果用户已有密钥对,可重复使用,不需多次创建。 操作步骤 登录管理控制台,选择“计算 > 弹性云服务器”。 在左侧导航树中,选择“密钥对”。 单击“创建密钥对”,并按照提示完成创建,详情请参见密钥对。 创建完成后,系统生成密钥文件,自动保存在系统默认目录下。
文件系统异常 / 文件系统状态 readonly:文件系统只读 deviceError:文件系统错误 磁盘读写速率 次/秒 磁盘每秒进行的读写次数 磁盘读和写延迟(秒) 秒 磁盘读写时延 IO队列数 / 磁盘设备平均IO队列长度,节点磁盘IO时间加权值。该值越大,表示节点的磁盘性能越好。
API URL说明 集群管理、节点管理、节点池管理、配额管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 Kubernetes API、存储管理、插件管理的URL格式为:https://{clusterid}.Endpoi
不同: 节点内Pod间通信:IPVlan子接口分配给节点上的Pod,因此同节点的Pod间通信可以直接通过IPVlan进行转发。 跨节点Pod间通信:所有跨节点Pod间的通信均根据VPC路由表中的路由先访问到默认网关,然后借助VPC的路由转发能力,将访问流量转发到另一个节点上的Pod。