检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
仪表盘 使用仪表盘 集群视图 APIServer视图 Pod视图 主机视图 Node视图 节点池视图 GPU视图 XGPU视图 CoreDNS视图 PVC视图 Kubelet视图 Prometheus Server视图 Prometheus Agent视图 父主题: 监控中心
使用仪表盘 仪表盘集合了不同视角、不同组件的高频监控指标。将不同的指标以图表的形式直观、综合性地汇集在同一个屏幕上,帮助您实时全面地掌握集群整体运行状况。 仪表盘提供了丰富的视图监控指标呈现,包括集群视图、APIServer视图、Pod视图、主机视图、Node视图等等。 前提条件
gauge CoreDNS缓存大小 coredns_cache_hits_total counter CoreDNS缓存命中个数 父主题: 仪表盘
Gauge GPU pcie带宽 cce_gpu_pcie_throughput_rx Gauge GPU pcie接收带宽 父主题: 仪表盘
gauge 文件系统上容器已经使用的字节数 container_fs_limit_bytes gauge 文件系统上容器限制的字节数 父主题: 仪表盘
Gauge PV的状态 kube_persistentvolumeclaim_status_phase Gauge PVC的状态 父主题: 仪表盘
件系统,使用Kubernetes能够方便对容器进行调度和编排。 对应用开发者而言,可以把Kubernetes看成一个集群操作系统。Kubernetes提供服务发现、伸缩、负载均衡、自愈甚至选举等功能,让开发者从基础设施相关配置等解脱出来。 Kubernetes可以把大量的服务器看
node_memory_MemAvailable_bytes Gauge 节点的可用内存量 node_memory_MemTotal_bytes Gauge 节点的内存总量 kube_pod_container_resource_requests Gauge Pod 容器的资源申请量 父主题: 仪表盘
XGPU的健康情况,所以根据XGPU设备所在物理GPU设备的健康情况反推。0表示XGPU设备为健康状态,1表示为非健康状态。 父主题: 仪表盘
在不同模式下节点累计CPU花费的时间 container_cpu_usage_seconds_total counter 容器CPU累计使用时间 container_memory_rss gauge RSS内存,即常驻内存集。是分配给进程使用的实际物理内存字节数,不是磁盘上缓存的虚机内存。 container_ne
Gauge 等待I/O完成的阻塞进程数 node_nf_conntrack_entries Gauge 连接跟踪表的最大大小 父主题: 仪表盘
process_cpu_seconds_total Counter 进程用户和系统 CPU 总时间(以秒为单位) go_goroutines Gauge 协程数量 父主题: 仪表盘
counter 容器磁盘读取次数 container_fs_reads_bytes_total counter 容器磁盘读取的总字节数 父主题: 仪表盘
s_total Gauge 在通过远程写入发送之前,从WAL读取后丢弃的样本速率。 prometheus_remote_storage_failed_samples_total Gauge 发送到远程存储时失败的样本失败速率,不可恢复的错误的次数。 prometheus_remo
化管理 集群命名空间RBAC授权 以下所有第三方教程均来自于华为云社区。由于云容器引擎产品持续更新与迭代,开发者社区教程中的步骤可能存在时效性,不一定与产品最新操作步骤完全保持一致,相关内容仅供学习和参考。 表2 开发者社区精选最佳实践 分类 相关文档 Kubernetes生态相关
使用Kubeflow和Volcano实现典型AI训练任务 Kubernetes已经成为云原生应用编排、管理的事实标准, 越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用Kubernet
vm_persistentqueue_blocks_dropped_total Counter 发送队列block丢弃的次数 父主题: 仪表盘
ytes gauge 常驻内存大小 process_cpu_seconds_total counter 进程CPU总花费时间 父主题: 仪表盘
Kubernetes是一个开源的容器编排引擎,可用于容器化应用的自动化部署、 扩缩和管理。 对应用开发者而言,可以把Kubernetes看成一个集群操作系统。Kubernetes提供服务发现、伸缩、负载均衡、自愈甚至选举等功能,让开发者从基础设施相关配置中解脱出来。 集群的网络 集群的网络可以分成三个部分:
监控能力,支持集群、节点、工作负载、Pod和事件的指标展示,全面监控集群的健康状态和负荷程度。 仪表盘:仪表盘可将不同图表汇聚到同一个屏幕上,通过不同的仪表形式来展示资源数据,例如,曲线图、数字图等,进而全面、深入地掌握监控数据。 优势 监控中心深度整合云原生基金会(CNCF)的