检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
"network-attachment-definitions.k8s.cni.cncf.io"是否被删除。 14 节点磁盘检查异常处理 检查节点关键数据盘使用量是否满足升级要求 检查/tmp目录是否存在500MB可用空间 15 节点DNS检查异常处理 检查当前节点DNS配置是否能正常解析OBS地址
通过X509证书连接集群 操作场景 通过控制台获取集群证书,使用该证书可以访问Kubernetes集群。 操作步骤 登录CCE控制台,单击集群名称进入集群。 查看集群“概览”页,在右边“连接信息”下证书认证一栏,单击“下载”。 图1 获取证书 在弹出的“证书获取”窗口中,根据系统提示选择证书的过期时间并下载集群X509证书。
请参见LTS用户指南。 图3 查看控制面组件日志 通过LTS控制台查看目标集群控制面组件日志 登录LTS控制台,选择“日志管理”页面。 通过集群ID查到对应的日志组,单击该日志组名称,查看日志流,详情请参见LTS用户指南。 图4 通过LTS控制台查看控制面组件日志 关闭集群控制面组件日志
CCE Standard集群 CCE Turbo集群 最新内核信息 VPC网络模型 容器隧道网络模型 云原生网络2.0 Huawei Cloud EulerOS 2.0 v1.31 √ √ √ 5.10.0-182.0.0.95.r2220_156.hce2.x86_64 v1.30
在“Pod”页签界面,单击“开始诊断”,选择要进行诊断的Pod,单击“确定”开启诊断。 图1 开始诊断 诊断完成后,单击“查看详情”,查看诊断结果。 图2 诊断结束 图3 诊断结果查看 父主题: 健康中心
网的“网络ID”进行过滤,找到对应的子网。 单击进入子网,选择“基本信息”页签,在“资源概览”中单击进入弹性网卡,查看该子网下的“弹性网卡”和“辅助弹性网卡”。 查看网卡“名称”或者“描述”,如果其中包含当前集群的ID,表示网卡被集群占用。您可以在CCE控制台的集群“总览”页中复制集群ID。
CCE Standard集群 CCE Turbo集群 最新内核信息 VPC网络模型 容器隧道网络模型 云原生网络2.0 Huawei Cloud EulerOS 2.0 v1.31 √ √ √ 5.10.0-182.0.0.95.r2220_156.hce2.x86_64 v1.30
标移动到节点名称上,查看对应的节点ID。 图2 获取node_id 节点池ID(nodepool_id) 登录CCE控制台,在左侧导航栏中选择“集群管理”。 单击所创建集群的名称,并在左侧选择“节点管理”,切换至“节点池”页签,将光标移动到节点池名称上,查看对应的节点池ID。 图3
通过kubectl对接多个集群 应用现状 kubectl命令行工具使用kubeconfig配置文件来查找选择集群所需的认证信息,并与集群的API服务器进行通信。默认情况下,kubectl会使用“$HOME/.kube/config”文件作为访问集群的凭证。 在CCE集群的日常使用
兼容:业务无需重新编译,无需进行CUDA库替换,对业务无感。 前提条件 配置 支持版本 集群版本 v1.23.8-r0、v1.25.3-r0及以上 操作系统 Huawei Cloud EulerOS 2.0操作系统 GPU类型 支持T4、V100类型的GPU 驱动版本 GPU虚拟化功能仅支持470.57.02、510
调度策略添加完成后,单击“创建工作负载”。 验证Pod全部运行在目标节点上。 在集群控制台左侧导航栏中选择“工作负载”。 单击工作负载名称,进入详情页面,查看实例列表,验证Pod全部运行在目标节点上,即节点包含gpu=true标签。 工作负载节点亲和性规则通过节点标签实现。CCE集群中节点在创建
String 资源类型,默认为PreCheckTask metadata PrecheckTaskMetadata object 升级前检查任务元数据信息 spec PrecheckCluserResponseSpec object 升级前检查任务信息 status PrecheckStatus
填写节点配置,其中关键配置如下,非关键配置可根据需求自行设置或设为默认值。详情请参考创建节点。 节点规格:选择一个4核16GiB的规格。 操作系统:Huawei Cloud EulerOS 2.0。 弹性公网IP:选择“自动创建”,为节点绑定一个EIP,可用于公网镜像拉取等操作。 确认规格后创建该节点。本实践中,1个节点即可满足基本诉求。
主机视图 从主机视角出发,监控主机的资源占用与健康状态,查看主机的磁盘、文件系统等常用系统设备指标,帮助您掌控节点运行状况。 指标说明 主机视图暴露的指标具体说明如下: 图1 主机资源指标 表1 视图说明 图表名称 单位 说明 CPU使用率 百分比 每个CPU核的使用率 平均负载
not be used.", "code": 403} 问题根因 事件信息表示账号被停用或没有权限,请检查账号状态是否正常。 如账号正常请查看该用户的命名空间权限,您需要拥有该命名空间的开发权限、运维权限或管理员权限之一,或者包含PVC/PV读写操作的自定义权限。详情请参见配置命名空间权限(控制台)。
解决方案 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 通过Pod内存监控查看内存增长曲线,确定异常出现时间。 根据监控、内存增长时间点、日志、进程名等信息,排查Pod内对应进程是否存在内存泄漏。
spec: finalizers: - kubernetes status: phase: Terminating 查看该命名空间下的资源。 # 查看集群中可以使用命名空间隔离的资源 $ kubectl api-resources -o name --verbs=list --namespaced
节点池绑定的云服务器组不存在,可能由于用户手动删除了云服务器组导致。 请登录CCE控制台,在左侧导航栏中单击“节点管理”,并单击节点池名称,在“总览”页面查看展开高级配置,查看所属云服务器组。 登录ECS控制台,在左侧导航栏中单击“弹性云服务器 > 云服务器组”,确认云服务器组是否存在。 如果云服务器组已
负载Pod一直无法创建。 解决方案: 登录该问题节点。 手动解压节点上的cce-pause镜像安装包。 tar -xzvf /opt/cloud/cce/package/node-package/pause-*.tgz 导入镜像。 Docker节点: docker load -i
将本账号的VPC资源共享给其他账号使用。例如,租户A可以将自己账号下创建的VPC和子网共享给租户B。在租户B接受共享以后,租户B账号下可以查看到该共享子网及其所属的共享VPC,并可以使用该共享子网和共享VPC创建资源,如CCE Turbo集群。详情请参见共享VPC概述。 使用场景