检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Pod视图 从Pod视角呈现Pod维度集群资源、网络、磁盘等监控情况,帮助您详细了解Pod的运行状态。 指标说明 Pod视图暴露的指标包括Pod资源指标、Pod网络指标和Pod磁盘指标,具体说明如下: 图1 Pod资源指标 表1 Pod资源指标说明 指标名称 单位 说明 容器数 个
GPU视图 GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量
PVC视图 提供了集群中的PVC监控视图,包含PV/PVC的状态、使用率情况。 支持以下PVC类型监控: 云硬盘类型的PVC(要求volumeMode参数值为Filesystem)支持使用量监控。 本地持久卷类型的PVC(要求集群中安装的Everest版本大于等于2.4.41)支持使用量监控。
Kubelet视图 Kubelet是运行在集群中每个节点上的代理程序,它提供了一些指标可以更好地了解集群的运行状态。 指标说明 Kubelet视图暴露的指标如下: 表1 Kubelet图表说明 视图名称 单位 说明 运行中Kubelet 个 集群运行中的kubelet的数量 运行中Pod
Node视图 从节点视角出发,加入了节点资源、网络、磁盘等关键指标呈现,帮助您掌控节点运行状况。 指标说明 Node视图暴露的指标如下: 图1 Node资源指标 表1 Node资源指标说明 指标名称 单位 说明 节点CPU使用率 百分比 节点CPU使用率 CPURequests水位
com/BVLC/caffe/blob/master/examples/00-classification.ipynb 另存链接中里面小猫图片。 data/ilsvrc12/* https://github.com/BVLC/caffe/tree/master/data/ilsvrc12
CoreDNS视图 提供了负载域名解析的CoreDNS监控视图,包含请求、响应情况,以及缓存状况。 指标说明 CoreDNS视图暴露的指标如下: 图1 CoreDNS视图指标 表1 CoreDNS指标说明 指标名称 单位 说明 请求速率 个/秒 CoreDNS每秒请求个数 请求速率(记录类型)
Probe的工作原理 通过Endpoints就可以实现Readiness Probe的效果,当Pod还未就绪时,将Pod的IP:Port从Endpoints中删除,Pod就绪后再加入到Endpoints中,如下图所示。 图1 Readiness Probe的实现原理 Exec Exec方式与HTTP
oller-manager和kubelet实现。 kube-controller-manager实现的驱逐 kube-controller-manager主要由多个控制器构成,而驱逐的功能主要由node controller这个控制器实现,它会周期性检查所有节点状态,当节点处于N
Network Interface),具体的网络通信交由CNI插件来实现。开源的CNI插件非常多,像Flannel、Calico等。针对Kubernetes网络,CCE为不同网络模型的集群提供不同的网络插件实现,用于负责集群内网络通信。 Kubernetes虽然不负责搭建网络模型,但要求集群网络满足以下要求:
储驱动插件,北向遵循标准容器平台存储驱动接口。实现Kubernetes Flex Volume标准接口,提供容器使用EVS块存储、SFS文件存储、OBS 对象存储、SFS Turbo 极速文件存储的能力。通过安装升级云存储插件可以实现云存储功能的快速安装和更新升级。 该插件为系统资源插件,Kubernetes
Prometheus Agent视图 Prometheus Agent是轻量化的容器监控模式,可以收集有关主机和应用程序的指标数据,并将数据上报并存储到AOM或三方监控平台。Prometheus Agent视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。
节点池视图 从节点池视角呈现节点池资源的占用和分配情况,帮助您详细了解节点池的负载状态。 指标说明 节点池视图暴露的指标如下: 图1 节点池资源指标 表1 视图说明 图表名称 单位 说明 节点池CPU分配率 百分比 节点池里的所有节点的Pod CPU Request总量占所有节点CPU总量的比例
从Pod访问公网 从Pod访问公网的实现方式 从Pod中访问公网地址的实现方式会因集群网络模式的不同而不同,具体请参见表1。 表1 从Pod访问公网的实现方式 实现方式 容器隧道网络 VPC网络 云原生2.0网络 给容器所在节点绑定公网IP 支持 支持 不支持 给Pod绑定弹性公网IP
Controller。Ingress Controller有很多种实现,最常见的就是Kubernetes官方维护的NGINX Ingress Controller;不同厂商通常有自己的实现,例如CCE使用弹性负载均衡服务ELB实现Ingress的七层负载均衡。 外部请求首先到达Ingress
ER)可以连接虚拟私有云(Virtual Private Cloud, VPC)或本地网络来构建中心辐射型组网,实现同区域的VPC互通,是云上大规格、高带宽、高性能的集中路由器。借助企业路由器的能力,可以实现不同VPC下CCE集群互通。 通过ER连接对端VPC,可以解决不同VPC下的集群创建容器之后
防止单一进程过度占用资源,影响系统的整体性能。 尽管Namespace和Cgroup从资源层面上实现了容器与宿主机的环境独立性,使得宿主机的资源对容器不可见,但这种隔离并没有实现真正意义上的安全隔离。由于容器共享宿主机的内核,一旦容器内部发生恶意行为或利用内核漏洞,就可能突破资
插件简介 CCE AI套件(Ascend NPU)是支持容器里使用huawei NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 约束与限制 集群中使用“AI加速型”节点时必须安装CCE AI套件(Ascend NPU)插件。 “
工作负载异常:实例调度失败 问题定位 当Pod状态为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。事件查看方法请参见工作负载状态异常定位方法。 排查思路 根据具体事件信息确定具体问题原因,如表1所示。 表1 实例调度失败 事件信息 问题原因与解决方案
图解云容器引擎