正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在监控CCE Turbo集群容器网络扩展指标的场景下,建议您关注以下配置。该插件的其他配置可按需进行设置,详情请参见云原生监控插件。 部署模式:此处选择使用本地存储监控数据,监控数据可选择是否对接AOM或三方监控平台。 自定义指标采集:该配置在本实践中必须选择开启,否则将无法采集容器网络扩展指标。
服务发布到ELB,工作负载已正常,但服务的pod端口未及时发布出来,ELB里的后端会被自动删除。 问题解答: 创建ELB时候,如果ELB监控检查失败,后端服务器组会删除,而且后续服务正常以后也不会添加。如果是更新已有的SVC时则不会删除。 添加删除节点的时候,由于集群状态的改变,可能会引
云原生监控插件兼容自建Prometheus 云原生监控插件兼容模式 若您已自建Prometheus,且您的Prometheus基于开源,未做深度定制、未与您的监控系统深度整合,建议您卸载自建Prometheus并直接使用云原生监控插件对您的集群进行监控,无需开启“兼容模式”。 卸
提供了集群中的PVC监控视图,包含PV/PVC的状态、使用率情况。 支持以下PVC类型监控: 云硬盘类型的PVC(要求volumeMode参数值为Filesystem)支持使用量监控。 本地持久卷类型的PVC(要求集群中安装的Everest版本大于等于2.4.41)支持使用量监控。 极速文
负载均衡器配置:后端服务器(组)配置 会话保持模式 监听器的会话保持类型 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.session-affinity-mode HTTP_COOKIE、APP_COOKIE
节点时钟同步服务器检查异常处理 检查项内容 检查节点时钟同步服务器ntpd或chronyd是否运行正常。 解决方案 问题场景一:ntpd运行异常 请登录该节点,执行systemctl status ntpd命令查询ntpd服务运行状态。若回显状态异常,请执行systemctl restart
公网IP搭建业务系统。 子网网段 子网是用来管理弹性云服务器网络平面的一个网络,可以提供IP地址管理、DNS服务,子网内的弹性云服务器IP地址都属于该子网。 图1 VPC网段结构 默认情况下,同一个VPC的所有子网内的弹性云服务器均可以进行通信,不同VPC的弹性云服务器不能进行通信。
容器镜像迁移方案概述 应用现状 随着容器化技术的发展,越来越多的企业使用容器代替了虚拟机完成应用的运行部署。目前许多企业选择自建Kubernetes集群,但是自建集群往往有着沉重的运维负担,需要运维人员自己配置管理系统和监控解决方案。企业自运维大批镜像资源,意味着要付出高昂的运维、人力、管理成本,且效率不高。
云原生监控插件版本发布记录 表1 云原生监控插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 3.11.0 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 适配CCE v1.30集群 2.37.8 3.10.1 v1.21 v1.23
GPU视图 GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量
仪表盘集合了不同视角、不同组件的高频监控指标。将不同的指标以图表的形式直观、综合性地汇集在同一个屏幕上,帮助您实时全面地掌握集群整体运行状况。 仪表盘提供了丰富的视图监控指标呈现,包括集群视图、Pod视图等等。 前提条件 集群处于“运行中”状态。 集群已开通“监控中心”。 查看/切换视图
Turbo集群 云原生网络2.0 v1.23.8-r0及以上 v1.25.3-r0及以上 暂不支持创建kata安全容器 仅支持弹性云服务器-虚拟机或弹性云服务器-物理机(机型为c6.22xlarge.4.physical或c7.32xlarge.4.physical) Kuberne
使用PrometheusRules配置普罗监控与告警规则 Prometheus具有PrometheusRule的能力,PrometheusRules提供了一种用于监控和警报的规则语言,能够方便用户更好的使用Prometheus查询监控指标,配置基于PromQL的告警规则。 当前云原生监控插件仅支持开启本地
为ELB Ingress配置服务器名称指示(SNI) SNI证书是一种扩展服务器证书,允许同一个IP地址和端口号下对外提供多个访问域名,可以根据客户端请求的不同域名来使用不同的安全证书,确保HTTPS通信的安全性。 在配置SNI时,用户需要添加绑定域名的证书,客户端会在发起SSL
Prometheus本地数据存储模式可以收集有关主机和应用程序的指标数据并存储在集群中,监控数据可以选择上报并存储到AOM或三方监控平台。Prometheus Server视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。 指标说明 Prometheus Server视图暴露的指标如下:
仪表盘 使用仪表盘 集群视图 Pod视图 Kubelet视图 Prometheus Agent视图 父主题: 监控中心
Agent视图 Prometheus Agent是轻量化的容器监控模式,可以收集有关主机和应用程序的指标数据,并将数据上报并存储到AOM或三方监控平台。Prometheus Agent视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。 指标说明 Prometheus
集群处于“运行中”状态。 集群已开通“监控中心”。 查看/切换视图 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“仪表盘”页签,默认展示集群视图。 监控中心仪表盘提供了预置视图,您可单击视图名称边上的“切换视图”按钮,选择需要的视图查看监控数据。 设置查看视图的相关参数。
为什么CCE集群界面的节点磁盘监控看起来不准确? 问题描述: CCE集群界面的某个节点磁盘监控高达80%以上,而进入云监控界面看到的磁盘使用率在40%不到。 后面在该节点上排查,发现有一个pvc磁盘使用达到了92%,将这个盘清理后,集群界面的磁盘使用率和云监控使用率一致了。 请问集群界面的节点监控是怎么
除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。 图1 模型训练环节 Kubeflow诞生于2