检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用健康中心 云容器引擎CCE服务提供一键集群诊断能力,包括集群诊断、节点诊断、工作负载诊断、核心插件诊断和外部依赖诊断,可以辅助您定位集群中出现的问题。本文介绍如何在集群中使用集群诊断功能。 前提条件 已获取资源权限 集群版本高于v1.17。 集群处于“运行中”状态。 功能入口
理平台,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,通过接入AI、大数据、基因、渲染等诸多行业计算框架服务终端用户,并针对计算型应用提供了作业调度、作业管理、队列管理等多项功能。 一般情况下,Kubernetes在调度工作负载时会使用自带的默认
inerd运行时服务。 登录需要更新GPU驱动的节点,如192.168.1.xx。 停止服务(containerd运行时) systemctl stop kubelet kubelet-monit containerd containerd-monit 停止服务(docker运行时)
域名还是集群外域名解析失败。 集群内域名: 确认coredns插件是否安装,coredns服务是否正常运行。 其他Pod到coredns的Pod网络是否正常,其他Pod到coredns的服务是否网络正常,如网络不正常: 安全组是否正常 ACL是否正常 是否跨节点Pod网络是否正常
please bind private ip tothese elbs and try again 方法二:登录CCE控制台,前往“服务”页面查看服务,单击ELB名称,跳转到ELB界面。 确认ELB实例是否包含IPv4私网IP。 为无IPv4私网IP地址的ELB绑定一个私网IP。 登录CCE控制台,单击目标ELB名称。
支持修改公网IP:节点上的公网IP可以在ECS控制台更换。 修改节点私网IP后如何恢复 节点私网IP修改后,会导致节点不可用。这时您需要将节点的私网IP修改回原来使用的IP。 在CCE控制台,查看节点详情,找到该节点之前使用的IP和子网。 图1 节点私网IP地址和所在子网 登录ECS控制台,找到节点,
情况。如需了解具体操作步骤,请参见费用账单。 欠费 在使用云服务时,账户的可用额度小于待结算的账单,即被判定为账户欠费。欠费后,可能会影响云服务资源的正常运行,需要及时充值。详细介绍请参见欠费说明。 停止计费 当云服务资源不再使用时,可以将其退订或删除,从而避免继续收费。详细介绍请参见停止计费。
GPU驱动或GPU设备存在异常,请根据GPU设备所在的节点类型(ECS或BMS),联系对应的客服进行处理。 GPU设备DBE错误与SBE错误总数过高 GPU驱动或GPU设备存在异常,请根据GPU设备所在的节点类型(ECS或BMS),联系对应的客服进行处理。 GPU设备存在Uncorrectable
的问题。 在线作业与离线作业 从业务是否一直在线的角度看,其类型可分为在线作业和离线作业。 在线作业:一般运行时间长,服务流量呈周期性,资源存在潮汐现象,但对服务SLA要求较高,如广告业务、电商业务等。 离线作业:往往运行时间短,计算需求大,可容忍较高的时延,如AI/大数据业务。
云容器引擎CCE 建议选择按需计费。 集群类型:CCE集群 集群版本:v1.25 集群规模:50节点 高可用:是 1 2.91元/小时 虚拟机节点 建议选择按需计费。 虚拟机节点类型:通用计算增强型 节点规格:4核 | 8GiB 操作系统:EulerOS 2.9 系统盘:50GiB | 通用型SSD
端口范围配置 Nodeport类型服务端口范围 service的NodePort模式下能够使用的主机端口号范围,默认是30000-32767 参数名 取值范围 默认值 是否允许修改 作用范围 service-node-port-range 20106-32767 30000-32767
not programmatic access." 该错误表示IAM用户没有编程访问权限。 解决方案 请联系主账号管理员,登录统一身份认证服务。 找到需要修改的IAM用户,单击用户名称。 修改“访问方式”,同时勾选“编程访问”和“管理控制台访问”。 图1 修改IAM用户访问方式 单击“确定”。
SDK概述 本文介绍了CCE服务提供的SDK语言版本,列举了最新版本SDK的获取地址。 在线生成SDK代码 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 您可以在API Explorer中具体API页面的“代码示例”页签查看对应编程语言类型的SDK代码,如图1所示。
String 插件下载用户,无需指定 platform 是 String 插件平台,无需指定 escEndpoint 是 String ecs地址,无需指定 表3 flavor 参数 是否必选 参数类型 描述 description 否 String 插件相关的描述信息 name
节点ID文件检查异常处理 检查项内容 检查节点的ID文件内容是否符合格式。 解决方案 在CCE控制台上的“节点管理”页面,单击异常节点名称进入ECS界面。 复制节点ID,保存到本地。 图1 复制节点ID 登录异常节点,备份文件 。 cp /var/lib/cloud/data/instance-id
用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限。 Token可通过调用获取用户Token接口获取,调用本服务API需要project级别的Token,即调用获取用户Token接口时,请求body中auth.scope的取值需要选择project,如下所示。
txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错 父主题: 节点运行
为集群的API服务提供者,控制面API Server的异常可能会导致整个集群无法访问,同时也会影响依赖API Server的工作负载的正常运行,QPS和请求错误率可以帮助您快速识别和修复问题。 图2 健康概况 资源消耗Top统计 在资源消耗Top统计中,CCE服务会将CPU使用率
done fi depmod ${sys_version} } upgrade_kmod 执行完成后,重启虚拟机。 相关链接 集群节点高危操作 父主题: 节点运行
集群通过企业路由器连接对端VPC 容器网络相关实践 不同场景下容器内获取客户端源IP 容器网络带宽限制的配置建议 通过配置容器内核参数增大监听队列长度 服务路由相关实践 通过负载均衡配置实现会话保持 为负载均衡类型的Service配置pass-through能力 自定义部署Nginx Ingress