搜索_华为云

Kubeflow部署 - 云容器引擎 CCE
Kubeflow部署 - 云容器引擎 CCE

除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲，如果要做模型训练，就不得不搭建一套AI计算平台，这个过程耗时费力，而且需要很多的知识积累。图1 模型训练环节 Kubeflow诞生于20

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
Pod视图 - 云容器引擎 CCE
Pod视图 - 云容器引擎 CCE

Pod视图从Pod视角呈现Pod维度集群资源、网络、磁盘等监控情况，帮助您详细了解Pod的运行状态。指标说明 Pod视图暴露的指标包括Pod资源指标、Pod网络指标和Pod磁盘指标，具体说明如下：图1 Pod资源指标表1 Pod资源指标说明指标名称单位说明容器数个

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
使用Prometheus监控控制节点组件指标 - 云容器引擎 CCE

erver组件进行监控，您在集群中开通云原生监控中心后（安装云原生监控插件版本为3.5.0及以上），可以查看仪表盘中的APIServer视图，监控API指标。如需对kube-controller、kube-scheduler、etcd-server组件进行监控，请参考以下步骤。

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 云原生观测最佳实践
CoreDNS视图 - 云容器引擎 CCE
CoreDNS视图 - 云容器引擎 CCE

CoreDNS视图提供了负载域名解析的CoreDNS监控视图，包含请求、响应情况，以及缓存状况。指标说明 CoreDNS视图暴露的指标如下：图1 CoreDNS视图指标表1 CoreDNS指标说明指标名称单位说明请求速率个/秒 CoreDNS每秒请求个数请求速率(记录类型)

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
GPU视图 - 云容器引擎 CCE
GPU视图 - 云容器引擎 CCE

GPU视图 GPU资源指标可以衡量GPU性能和使用情况，包括GPU的利用率、温度、显存等方面的监控数据，帮助您掌控GPU运行状况。指标说明图1 GPU资源指标表1 GPU图表说明图表名称单位说明集群-显存使用率百分比集群的显存使用率计算公式：集群内容器显存使用总量/集群内显存总量

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
使用PrometheusRules配置普罗监控与告警规则 - 云容器引擎 CCE

使用PrometheusRules配置普罗监控与告警规则 Prometheus具有PrometheusRule的能力，PrometheusRules提供了一种用于监控和警报的规则语言，能够方便用户更好的使用Prometheus查询监控指标，配置基于PromQL的告警规则。当前云原生监控插件仅支持开启本地

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 云原生观测最佳实践
APIServer视图 - 云容器引擎 CCE
APIServer视图 - 云容器引擎 CCE

APIServer视图提供了Kubernetes核心组件APIServer主要监控视图，帮助您更好的监控APIServer的运行状态。主要包括APIServer组件的请求、资源、工作队列等相关指标。指标说明 APIServer视图暴露的指标包括请求指标、工作队列指标和资源指标，具体说明如下：

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
Prometheus Server视图 - 云容器引擎 CCE

Prometheus本地数据存储模式可以收集有关主机和应用程序的指标数据并存储在集群中，监控数据可以选择上报并存储到AOM或三方监控平台。Prometheus Server视图展示了Prometheus提供的一些内置指标，可用于监控和度量系统的性能和状态。指标说明 Prometheus Server视图暴露的指标如下：

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
Grafana - 云容器引擎 CCE
Grafana - 云容器引擎 CCE

删除。选择“云硬盘”类型时，需选择“云硬盘类型”，不同局点支持的云硬盘类型可能不同，请以控制台选择项为准。创建云硬盘会收取存储费用，并占用云硬盘的配额。选择“专属存储”类型时，需选择“专属实例”，创建的存储卷将创建在对应的存储池中。容量 (GiB) 云硬盘的大小默认为5G

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生可观测性插件
基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置集群中包含GPU节点时，可通过GPU指标查看节点GPU资源的使用情况，例如GPU利用率、显存使用量等。在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，在业务波动时自适应调整应用的副本数量。前提条件目标集群已创建，且

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
主机视图 - 云容器引擎 CCE
主机视图 - 云容器引擎 CCE

主机视图从主机视角出发，监控主机的资源占用与健康状态，查看主机的磁盘、文件系统等常用系统设备指标，帮助您掌控节点运行状况。指标说明主机视图暴露的指标具体说明如下：图1 主机资源指标表1 视图说明图表名称单位说明 CPU使用率百分比每个CPU核的使用率平均负载

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
Node视图 - 云容器引擎 CCE
Node视图 - 云容器引擎 CCE

Node视图从节点视角出发，加入了节点资源、网络、磁盘等关键指标呈现，帮助您掌控节点运行状况。指标说明 Node视图暴露的指标如下：图1 Node资源指标表1 Node资源指标说明指标名称单位说明节点CPU使用率百分比节点CPU使用率 CPURequests水位

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
工作负载的“事件”保存多长时间？ - 云容器引擎 CCE

2-r3及以上版本的集群中，工作负载的“事件”信息保存时间为1个小时，1小时后自动清除数据。在1.7.3-r12之前更老的集群版本中，保存时间为24小时。父主题：监控日志

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 监控日志
与其它云服务的关系 - 云容器引擎 CCE

kubelet插件 CCE容器实例弹性伸缩到CCI服务云硬盘 EVS 可以将云硬盘挂载到云服务器，并可以随时扩容云硬盘容量。在云容器引擎中一个节点就是具有多个云硬盘的一台弹性云服务器，您可以在创建节点时指定云硬盘的大小。使用云硬盘存储卷对象存储服务 OBS 对象存储服务是一个基于

 帮助中心 > 云容器引擎 CCE > 产品介绍
云原生观测体系概述 - 云容器引擎 CCE

角的可视化视图，支持集群、节点、工作负载和Pod等多种维度的监控视图，支持多级下钻与关联分析。仪表盘功能内置常见的容器监控大盘，如Kubernetes APIServer组件监控、CoreDNS组件监控和PVC监控等。日志中心 CCE日志中心集成了云日志服务LTS。启用日志采集

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测
仪表盘 - 云容器引擎 CCE
仪表盘 - 云容器引擎 CCE

CoreDNS视图 PVC视图 Kubelet视图 Prometheus Server视图 Prometheus Agent视图父主题：监控中心

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心
CCE容器云存储PVC能否感知底层存储故障？ - 云容器引擎 CCE

底层存储细节，因此没有感知底层存储故障的能力。云监控服务CES 具备查看云服务监控指标的能力：云监控服务基于云服务自身的服务属性，已经内置了详细全面的监控指标。当用户在云平台上开通云服务后，系统会根据服务类型自动关联该服务的监控指标，帮助用户实时掌握云服务的各项性能指标，精确掌握云服务的运行情况。

帮助中心 > 云容器引擎 CCE > 常见问题 > 存储管理
XGPU视图 - 云容器引擎 CCE
XGPU视图 - 云容器引擎 CCE

XGPU视图 XGPU是虚拟化的GPU设备，从XGPU视图可以在节点、GPU卡、容器等多个角度监控XGPU虚拟化设备的显存、算力分配率，帮助您掌控GPU运行状况。指标说明图1 XGPU资源指标表1 XGPU视图图表说明图表名称单位说明集群-XGPU设备显存使用率百分比

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
Prometheus Agent视图 - 云容器引擎 CCE

Agent视图 Prometheus Agent是轻量化的容器监控模式，可以收集有关主机和应用程序的指标数据，并将数据上报并存储到AOM或三方监控平台。Prometheus Agent视图展示了Prometheus提供的一些内置指标，可用于监控和度量系统的性能和状态。指标说明 Prometheus

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
高危操作一览 - 云容器引擎 CCE

通过ELB的控制台修改CCE创建的监听器后端服务器组，添加、删除后端服务器导致Service/Ingress访问不通。在集群升级等需要重启控制节点的场景，所做修改会被CCE侧重置：用户删除的后端服务器会恢复用户添加的后端服务器会被移除重新创建或更新Service/Ingress。

帮助中心 > 云容器引擎 CCE > 用户指南

总条数： 666

上一页
1
2
3
4
5
...
34
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Kubeflow部署 - 云容器引擎 CCE

Pod视图 - 云容器引擎 CCE

使用Prometheus监控控制节点组件指标 - 云容器引擎 CCE

CoreDNS视图 - 云容器引擎 CCE

GPU视图 - 云容器引擎 CCE

使用PrometheusRules配置普罗监控与告警规则 - 云容器引擎 CCE

APIServer视图 - 云容器引擎 CCE

Prometheus Server视图 - 云容器引擎 CCE

Grafana - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

主机视图 - 云容器引擎 CCE

Node视图 - 云容器引擎 CCE

工作负载的“事件”保存多长时间？ - 云容器引擎 CCE

与其它云服务的关系 - 云容器引擎 CCE

云原生观测体系概述 - 云容器引擎 CCE

仪表盘 - 云容器引擎 CCE

CCE容器云存储PVC能否感知底层存储故障？ - 云容器引擎 CCE

XGPU视图 - 云容器引擎 CCE

Prometheus Agent视图 - 云容器引擎 CCE

高危操作一览 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线