检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CustomedHPA的页签。 您可以查看弹性伸缩策略的最新状态、规则、关联工作负载等信息。 您还可以在工作负载详情页中查看已创建的弹性伸缩策略: 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中单击“工作负载”,单击工作负载名称查看详情。 在该工作负载详情页的“弹性伸缩
控制台访问异常问题排查 访问容器组日志时报错 若您在查看容器组日志时遇到该问题,而集群其他资源均可正常访问,您可以按以下步骤排查。 登录CCE控制台,单击集群名称进入集群。 选择左侧导航栏的“工作负载”,查看工作负载容器组运行状态是否为“运行中”,若不是,请根据工作负载状态异常定位方法进行排查。
解决方案 问题场景:节点池状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面查看问题节点池状态。若该节点池状态处于伸缩中,请等待节点池伸缩完毕。 图1 查看节点池状态 问题场景:节点池操作系统不支持 由于不同版本之间的运行时和OS存在差异,该异常通常发生在低版本集群升级到1
节点无法连接互联网(公网),如何排查定位? 当节点无法连接互联网时,请参照如下方法排查。 排查项一:节点是否绑定弹性IP 登录ECS控制台,查看节点对应的弹性云服务器是否已绑定弹性IP。 若弹性IP一栏有IP地址,表示已绑定弹性IP。若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP
排查思路: 确认节点标签是否已经打上nvidia资源。 查看nvidia驱动运行是否正常。 到插件运行所在的节点上,查看驱动的安装日志,路径如下所示: /opt/cloud/cce/nvidia/nvidia_installer.log 查看nvidia容器标准输出日志: 过滤容器id docker
eus格式,可以通过调用Prometheus接口查看监控数据。 本文以实际示例介绍如何通过Prometheus查看CCE Turbo集群容器网络扩展指标,具体步骤如下: 安装插件 监控容器网络扩展指标 (可选)通过Grafana查看图表 前提条件 已创建一个CCE Turbo集群。
新建Service。页面列表中的查询结果已自动过滤不符合要求的Service。 目标服务访问端口:可选择目标Service的访问端口。 操作:可单击“删除”按钮删除该配置。 注解:以“key: value”形式设置,可通过Annotations查询Nginx Ingress支持的配置。
下的各种工作负载(Deployment/StatefulSet)、守护进程集(DaemonSet)和普通任务(Job)使用,主要面向高性能网站、日志存储、DevOps、企业办公等场景。 父主题: 极速文件存储卷
取到账号ID。账号ID获取步骤如下: 注册并登录管理控制台。 单击用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面的项目列表中查看账号ID。 图1 获取账号ID 父主题: 附录
ephemeral emptyDir: {} 您可以通过kubectl describe node命令查询节点临时卷的容量(Capacity)和可使用量(Allocatable),并可查询节点已分配的临时卷申请值和限制值。 返回示例如下: ... Capacity: cpu:
选择“无状态负载”页签,单击已创建工作负载后的“监控”。在监控页面,可查看工作负载的CPU利用率和物理内存使用率。 图1 查看无状态工作负载监控 单击工作负载名称,可在“实例列表”中单击某个实例的“监控”按钮,查看相应实例的CPU使用率、内存使用率。 日志 您可以通过“日志”功能查看无状态工作负载、有状态工作负载、守
唤醒集群 x √ √ 休眠集群 x √ √ 查询集群列表 √ √ √ 查询集群详情 √ √ √ 添加节点 x √ √ 删除节点/批量删除节点 x √ √ 更新节点,如更新节点名称 x √ √ 查询节点详情 √ √ √ 查询节点列表 √ √ √ 查询任务列表(集群层面的job) √ √ √
pulling image "xxxxx"”,该状态下工作负载实例K8s事件名称为“实例拉取镜像失败”或“重新拉取镜像失败”。查看K8s事件的方法请参见Pod事件查看方法。 排查思路 根据具体事件信息确定具体问题原因,如表1所示。 表1 实例拉取镜像失败 事件信息 问题原因与解决方案 Failed
为什么容器无法连接互联网? 当容器无法连接互联网时,首先需要排查容器所在节点能否连接互联网。其次,需要查看容器的网络配置是否正确,例如DNS配置是否可以正常解析域名。 排查项一:节点能否连接互联网 登录ECS控制台。 查看节点对应的弹性云服务器是否已绑定弹性IP或者配置NAT网关。 如图1,若弹性IP
参数填写完成后,单击“下一步:确认配置”,显示集群资源清单,确认无误后,单击“提交”。 集群创建预计需要5-10分钟,您可以单击“返回集群管理”进行其他操作或单击“查看集群事件列表”后查看集群详情。 相关操作 通过命令行工具连接集群:请参见通过kubectl连接集群。 添加节点:集群创建完成后,若您需要为集群添加节点,请参见创建节点。
后面在该节点上排查,发现有一个pvc磁盘使用达到了92%,将这个盘清理后,集群界面的磁盘使用率和云监控使用率一致了。 请问集群界面的节点监控是怎么样的原理,是否只报最大磁盘使用率的数据呢? 问题解答: CCE集群监控信息中,磁盘使用率为当前节点中使用率最高的硬盘的监控信息。 父主题:
节点安装指定NVIDIA驱动版本。 从NVIDIA官方网站中下载指定的驱动版本,如何选择GPU节点驱动版本请参见选择GPU节点驱动版本。 记录当前版本驱动状态。根据CCE AI套件(NVIDIA GPU)插件版本差异,查询驱动的命令如下: 1.x.x版本执行: /opt/clo
下的各种工作负载(Deployment/StatefulSet)、守护进程集(DaemonSet)和普通任务(Job)使用,主要面向高性能网站、日志存储、DevOps、企业办公等场景。 极速文件存储性能 关于极速文件存储的性能参数,请参考文件系统类型。 使用场景 极速文件存储支持以下挂载方式:
节点paas用户登录权限检查异常处理 检查项内容 检查paas用户是否有登录权限。 解决方案 执行以下命令查看paas用户是否有登录权限: sudo grep "paas" /etc/passwd 如果paas用户权限中带有"nologin"或者"false",说明paas用户没
易用的端到端Kubernetes集群监控能力。 使用kube-prometheus-stack可将监控数据与监控中心对接,在监控中心控制台查看监控数据,配置告警等。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object 插件基础配置参数,无需指定。