检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE节点故障检测 插件简介 CCE节点故障检测插件(原名NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。NPD可以作为DaemonSet运行, 也可以独立运行。
禁止重复 NULL 允许 CCE Turbo 控制台上创建节点池时不允许指定,支持在节点池创建后在节点池配置管理中配置。 通过yangtse-agent的配置管理生效 父主题: 节点池
volcano:表示安装Volcano调度器插件。 npd:表示安装CCE节点故障检测插件。 cie-collector:表示安装云原生监控插件。 log-agent:表示安装云原生日志采集插件。 virtual-kubelet:表示安装CCE突发弹性引擎(对接 CCI)插件。 version
角的可视化视图,支持集群、节点、工作负载和Pod等多种维度的监控视图,支持多级下钻与关联分析。仪表盘功能内置常见的容器监控大盘,如Kubernetes APIServer组件监控、CoreDNS组件监控和PVC监控等。 日志中心 CCE日志中心集成了云日志服务LTS。启用日志采集
CoreDNS域名解析插件是一款通过链式插件的方式为Kubernetes提供域名解析服务的DNS服务器。 CoreDNS是由CNCF孵化的开源软件,用于Cloud-Native环境下的DNS服务器和服务发现解决方案。CoreDNS实现了插件链式架构,能够按需组合插件,运行效率高、配置
CCE容器网络扩展指标 插件介绍 CCE容器网络扩展指标插件(dolphin)是一款容器网络流量监控管理插件,支持CCE Turbo集群非主机网络容器的流量统计,以及节点内容器联通性健康检查。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object
Server通信的端口。 10248 –healthz-port:健康检查服务的端口。 10255 –read-only-port:只读端口,用于对外提供监控指标。 父主题: 节点运行
1Gi \ --use-node-agent \ --node-agent-pod-cpu-request 500m \ --node-agent-pod-mem-request 1Gi \ --node-agent-pod-cpu-limit 1000m
netes原生接口,您可以完整的使用云容器引擎的所有功能,包括创建集群和节点,使用Kubernetes接口创建容器工作负载,使用CCE接口监控工作负载的使用数据等。 类型 子类型 说明 CCE接口 集群管理 集群管理接口,包括创建、删除集群的接口等。 通过这些接口,您可以创建集群、获取已创建集群的信息。
1.5.0,则检查log-agent-otel-collector工作负载的标准输出。 可在插件中心单击 “云原生日志采集插件”名称,在“实例列表”中选择 log-agent-otel-collector 最右侧的日志查看。 图7 查看log-agent-otel-collector实例日志
webhook。 方法二:使用开源软件OPA Gatekeeper限制externalIP的使用。示例说明ConstraintTemplate和Constraint发布在:https://github.com/open-policy-agent/gatekeeper-librar
Selector、DNS策略和L7网络策略。 资源消耗 每个节点上有常驻进程cilium-agent负责处理eBPF网络加速,每个cilium-agent预计占用内存80MiB,每增加一个Pod,cilium-agent内存消耗预计额外增加10KiB。 组件说明 开启DataPlane V2功能后,会安装以下组件:
它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。 图1 模型训练环节
AHPA通过对工作负载的历史指标进行监控,以周为维度进行建模,因此对具有明显周期性的工作负载具有更佳效果。 AHPA启动后拉取指定的工作负载过去一定时间的监控数据(至少一周,至多八周),利用统计学原理分析建模。随后每分钟一次,根据当前时间点的历史监控数据,结合未来一段时间窗口的历史数
登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 通过Pod内存监控查看内存增长曲线,确定异常出现时间。 根据监控、内存增长时间点、日志、进程名等信息,排查Pod内对应进程是否存在内存泄漏。
CCE支持配置工作负载日志策略,便于日志的统一收集、管理和分析,以及按周期防爆处理。CCE支持ICAgent和log-agent两种工具进行日志采集。 CCE支持对集群节点/工作负载的资源水位,运行状态,网络流量等进行全方位的监控。同时在易用性上,提供良好的可视化视图,支持多级下钻与关联分析。 CCE支持上报告警
节点池检查异常处理 安全组检查异常处理 残留待迁移节点检查异常处理 K8s废弃资源检查异常处理 兼容性风险检查异常处理 节点上CCE Agent版本检查异常处理 节点CPU使用率检查异常处理 CRD检查异常处理 节点磁盘检查异常处理 节点DNS检查异常处理 节点关键目录文件权限检查异常处理
V2网络加速说明。 v1.27及以上版本的新建集群支持该配置,且开启后,会在每个节点上部署cilium-agent,每个cilium-agent预计占用内存80MiB,每增加一个Pod,cilium-agent内存消耗预计额外增加10KiB。集群创建后不支持关闭且只能使用Huawei Cloud EulerOS
的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。 Kubernetes存在的问题 Kubeflow在调度环境使用的是Kubernetes的默认调度器。而Kubernetes默认调度
Service,OBS)提供海量、安全、高可靠、低成本的数据存储能力,可供用户存储任意类型和大小的数据。适合企业备份/归档、视频点播、视频监控等多种数据存储场景。 标准接口:具备标准Http Restful API接口,用户必须通过编程或第三方工具访问对象存储。 数据共享:服务器