检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群管理(IAM)权限:云服务层面的权限,用于管理CCE集群与周边资源(如VPC、ELB、ECS等)的操作。
不建议在ECS界面删除CCE集群中的节点。 父主题: 网络异常问题排查
图2 DNS Endpoint的IP地址 在IDC的域名解析服务器上做级联配置。 此处配置跟具体域名解析服务器相关,不同域名解析服务器的配置方法不同,请根据实际情况配置。 这里使用BIND软件(一个常用的域名解析服务器软件)为例进行说明。
为什么选择云容器引擎 云容器引擎深度整合高性能的计算(ECS/BMS)、网络(VPC/EIP/ELB)、存储(EVS/OBS/SFS)等服务,并支持GPU、NPU、ARM等异构计算架构,支持多可用区(Available Zone,简称AZ)、多区域(Region)容灾等技术构建高可用
无论使用何种方法进行部署,安装MinIO的服务器需要有足够的存储空间,且均需要绑定EIP并在安全组中开放MinIO的服务端口,否则将无法上传(下载)备份文件。 本示例选择在一台集群外的临时ECS上安装MinIO,步骤如下。 下载MinIO对象存储。
该映射将集群的 DNS 服务器配置为返回具有该外部主机名值的 CNAME 记录。 无需创建任何类型代理。
获取方法:在云服务器控制台,单击左侧栏目树中的“云硬盘 > 磁盘”,单击要对接的云硬盘名称进入详情页,在“概览信息”页签下找到“管理信息”中的企业项目,单击并进入对应的企业项目控制台,复制对应的ID值即可获取云硬盘所属的企业项目的ID。
大规模组网:云原生网络2.0当前最大可支持2000个ECS节点,10万个Pod。
conn_reuse_mode问题说明 cgroup统计资源异常导致kubelet驱逐Pod 低版本内核的CentOS节点出现容器OOM时,偶现ext4文件系统卡死问题 IPVS缺陷导致节点上升级CoreDNS后出现概率性解析超时 节点ARP表项超过限制 EulerOS 2.9内核缺陷导致虚拟机卡住
Volcano调度 Volcano调度概述 使用Volcano调度工作负载 资源利用率优化调度 业务优先级保障调度 AI任务性能增强调度 NUMA亲和性调度 应用扩缩容优先级策略 父主题: 调度
参数 示例 参数说明 节点类型 弹性云服务器-虚拟机 请根据不同的业务诉求选择节点类型,“节点规格”列表中将自动为您筛选该类型下可部署容器服务的规格,供您进一步选择。 节点规格 4 vCPUs | 8 GiB 请根据业务需求选择相应的节点规格。不同的节点规格差别请参见节点规格。
删除节点上的cce-pause等系统镜像 导致无法正常创建容器,且无法拉取系统镜像 请从其他正常节点复制该镜像恢复 在ECS侧对节点池下的节点进行规格变更 节点的规格与节点池定义的规格不一致,导致在弹性扩缩容时出现非预期现象(多扩或者少扩) 重新将节点规格变更为节点池下定义的规格,
服务器证书:选择一个服务器证书。如果当前无可选证书,需前往弹性负载均衡控制台进行创建,详情请参见创建证书。 ProxyProtocol:支持通过ProxyProtocol协议携带客户端真实IP到后端服务器。
须知: 在CCE Turbo集群中,如果使用独享型ELB对接到工作负载,则最大实例数不能超过ELB的后端服务器组配额(默认为500),否则将会导致多余的实例无法添加到ELB后端。 冷却时间 请输入冷却时间值,单位为分钟。
集群调度器配置 开启GPU共享 是否开启GPU共享能力 参数名 取值范围 默认值 是否允许修改 作用范围 enable-gpu-share true/false true 允许 CCE Standard/CCE Turbo 配置建议: true 默认调度器 集群调度器选择开关,用户可自定义调度器模式
如何收集CCE集群中节点的日志? 节点日志路径 CCE节点日志文件如下表所示。 表1 节点日志列表 日志名称 路径 kubelet日志 v1.21及以上版本集群:/var/log/cce/kubernetes/kubelet.log v1.19及以下版本集群:/var/paas/sys
调度器性能配置 请求至kube-apiserver的QPS配置 与kube-apiserver通信的qps 参数名 取值范围 默认值 是否允许修改 作用范围 kube-api-qps 大于等于0 100 允许 CCE Standard/CCE Turbo 与kube-apiserver
负载均衡器配置:监听器配置 客户端连接空闲超时时间 客户端连接空闲超时时间,在超过keepalive_timeout时长一直没有请求, 负载均衡会暂时中断当前连接,直到下一次请求时重新建立新的连接。 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation:
然后将详细原因和错误信息,根据GPU设备所在的节点类型(ECS或BMS),联系对应的客服进行处理。 GPU虚拟化设备可用内存远小于GPU物理显存 登录GPU虚拟化节点。
如果traceroute不通请尝试ping、telnet等方式,使用ping工具前如果ping的对象是云服务器,需确保安全组已放开ICMP策略。 父主题: 网络