检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
其作为kube-controller-manager的一部分运行,每24小时检查一次,查看是否有任何自动生成的传统ServiceAccount令牌在特定时间段内(默认为一年,通过--legacy-service-account-token-clean-up-period指定)未被使用
您可以登录GPU节点,执行以下命令进行检查: curl {Pod IP}:2112/metrics 其中{Pod IP}是GPU插件的Pod IP,返回指标结果则为正常。 在集群中安装3.9.5及以上版本的云原生监控插件,且部署模式需选择“本地数据存储”。
检查Pod的EIP就绪 容器网络控制器会在Pod IP分配后,为Pod绑定EIP并回写分配结果至Pod的annotation(yangtse.io/allocated-ipv4-eip),Pod业务容器的启动时间可能早于EIP分配结果回写成功时间。
节点创建完成后,登录节点执行表1中的查看参数命令检查是否修改成功。 父主题: 节点系统参数优化
使用带宽限速会增加离线业务得不到带宽的风险,极端场景可能会出现业务因为带宽不足异常、Pod健康检查失败等问题。 出口网络带宽保障的例外场景: 当混部的在线Pod或者是离线Pod使用了网络带宽限速功能时,网络带宽限速功能的优先级会高于当前功能。
完善的健康检查机制,保障业务实时在线。 自动弹性:ELB支持自动弹性规格,处理能力随业务峰值自动伸缩。 超强性能:单个ELB实例最大支持100万QPS、千万级并发连接。 云产品生态集成:ELB支持与WAF等多种云产品结合使用。
当前虚拟化域侧并没有提供特定的接口来检查XGPU的健康情况,所以根据XGPU设备所在物理GPU设备的健康情况反推。0表示XGPU设备为健康状态,1表示为非健康状态。 父主题: 仪表盘
检查是否扩容成功。
echo kernel.pid_max = 4194304 >> /etc/sysctl.conf && sysctl -p echo 4194304 > /sys/fs/cgroup/pids/kubepods/pids.max 执行如下命令检查是否修改成功,当返回值与修改值一致时说明修改正确
unremovableNodeRecheckTimeout 否 int 节点被判定不可缩容后能再次启动检查的时间间隔,单位分钟,默认值:5。 scaleDownUtilizationThreshold 否 double 判断节点可缩容的cpu和内存资源使用率门限,默认0.5。
在“网络信息”中单击“节点默认安全组”后的按钮,检查集群的节点默认安全组是否被删除,且安全组规则需要满足集群安全组规则配置。 如果您的账号下含有多个集群,需要统一管理节点的网络安全策略,您也可以指定自定义的安全组,具体操作方法及约束限制请参见更改集群节点的默认安全组。
健康检查(可选):根据需求选择是否设置存活探针、就绪探针及启动探针,详情请参见设置容器健康检查。 环境变量(可选):支持通过键值对的形式为容器运行环境设置变量,可用于把外部信息传递给Pod中运行的容器,可以在应用部署后灵活修改,详情请参见设置环境变量。
从缓存层,检查请求的后缀,并根据下面的情况转发到对应的DNS上: 具有集群后缀的名字(例如“.cluster.local”):请求被发送到coredns。
它对故障排除特别有用,特别是当需要检查另一个容器,但因为该容器已经崩溃或其镜像缺乏调试工具不能使用kubectl exec时。
systemctl enable docker # 设置Docker服务在系统启动时自动启动 systemctl start docker # 启动Docker服务 检查安装结果。
它对故障排除特别有用,特别是当需要检查另一个容器,但因为该容器已经崩溃或其镜像缺乏调试工具不能使用kubectl exec时。
为耗时较长的计算任务提供检查点,以便任务能方便地从崩溃前状态恢复执行。 在Web服务器容器服务数据时,保存内容管理器容器获取的文件。 缓存空间,例如基于磁盘的归并排序。 为耗时较长的计算任务提供检查点,以便任务能方便地从崩溃前状态恢复执行。
如果出现访问不通的情况,需要检查并确认被访问服务的安全组配置是否允许来自容器网段的访问。 与CCE进行通信的云服务有:ECS、ELB、RDS、DCS、Kafka、RabbitMQ、ModelArts、DDS等。
检查是否扩容成功。
检查CoreDNS容器内存使用率是否大于80%。 告警规则(PromQL) 输入普罗查询语句。关于如何编写普罗查询语句,请参见查询示例。