检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
container_path 否 String 容器里用于挂载Hiai library的路径 默认值:"/usr/local/HiAI_unused" host_path 否 String 主机上包含Hiai library的路径 默认值:"/usr/local/HiAI_unused"
基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。
CCE AI套件(NVIDIA GPU) 插件介绍 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 是 object 插件基础配置参数。
(sum(container_memory_working_set_bytes{image!="", container!="POD",namespace="kube-system",container="coredns"}) BY (cluster_name, node,container
健康诊断覆盖范围如下图所示: 图1 健康诊断覆盖范围 健康诊断能力项 支持开箱即用,可以在不开通监控中心情况下,进行基础的集群健康诊断 支持全量检查集群整体运行状况(开通监控中心后),发现集群故障与潜在风险 针对诊断结果,智能给出健康评分 支持定时巡检,并可视化巡检结果 支持查看巡检历史,方便用户分析故障原因
计费相关FAQ 索引 可观测性(监控中心、日志中心、告警中心)如何收费? 为什么关闭日志中心后还有收费产生? 可观测性(监控中心、日志中心、告警中心)如何收费? 免费场景 监控中心自身免费使用,监控中心所使用的指标都上报并存储在AOM服务,其中在AOM范畴内的基础指标不收费,存储
CCE AI套件(Ascend NPU)版本发布记录 表1 CCE AI套件(Ascend NPU)插件版本记录 插件版本 支持的集群版本 更新特性 2.1.23 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 修复部分问题 2.1.22 v1
CCE AI套件(NVIDIA GPU)版本发布记录 表1 CCE AI套件(NVIDIA GPU)版本记录 插件版本 支持的集群版本 更新特性 2.7.19 v1.28 v1.29 v1.30 修复nvidia-container-toolkit CVE-2024-0132容器逃逸漏洞
AI任务性能增强调度 公平调度(DRF) 组调度(Gang) 父主题: Volcano调度
应用性能管理服务(APM)当前支持给JAVA类工作负载提供调用链、拓扑等监控能力。您可为JAVA类工作负载安装APM探针,以提供更精准的问题分析与定位,协助您高效解决应用难题。 工作负载创建时和创建后,均可以对JAVA类工作负载监控进行设置。 如果您已经使用CCE部署了容器应用,您需要应用性
Prometheus(停止维护) 插件简介 Prometheus是一套开源的系统监控报警框架。它启发于Google的borgmon监控系统,由工作在SoundCloud的Google前员工在2012年创建,作为社区开源项目进行开发,并于2015年正式发布。2016年,Prometheus正式加入Cloud
CCE节点故障检测 插件介绍 CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。n
Kubelet、Kube-proxy 、Container Runtime等。在云容器引擎CCE中,主要采用高性能的弹性云服务器ECS或裸金属服务器BMS作为节点来构建高可用的Kubernetes集群。 CCE提供的节点相关功能包括:购买节点、纳管已有节点到集群、登录节点、节点监控、管理节点标签、同步节点信息、重置节点、删除节点、节点关机等。
即可实现灰度发布、流量治理和流量监控能力。 优势 开箱即用 与云容器引擎无缝对接,一键开启后即可提供非侵入的智能流量治理解决方案。 策略化智能路由 无需修改代码,即可实现HTTP、TCP等服务连接策略和安全策略。 流量治理可视化 基于无侵入的监控数据采集,深度整合APM能力,提供
FrequentDockerRestart 通过定期回溯系统日志,检查容器运行时Docker是否频繁重启 Containerd频繁重启 FrequentContainerdRestart 通过定期回溯系统日志,检查容器运行时Containerd是否频繁重启 Kubelet服务异常 KubeletProblem 检查关键组件Kubelet的运行状态
用。 监控 您可以通过CCE控制台查看工作负载和容器组的CPU和内存占用情况,以确定需要的资源规格。本文以无状态工作负载为例说明如何使用监控功能。 登录CCE控制台,进入一个已有的集群,在左侧导航栏中选择“工作负载”。 选择“无状态负载”页签,单击已创建工作负载后的“监控”。在监
功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“健康中心”。 您可以在不开通监控中心的情况下,进行基础的集群健康诊断。如果想体验更丰富的诊断能力,请参考开通监控中心开通。 配置定时巡检规则 在“健康诊断”页面右上角打开“定时巡检”开关,并配置定时巡检启动的时
Kubernetes Dashboard 插件介绍 Kubernetes Dashboard是一个旨在为Kubernetes世界带来通用监控和操作Web界面的项目,集合了命令行可以操作的所有命令。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object
Containerd Pod重启风险检查异常处理 检查项内容 检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。 解决方案 检测到您的节点上的containerd服务存在重启风险;请确保在业务影响可控
Grafana 插件简介 Grafana是一款开源的数据可视化和监控平台,可以为您提供丰富的图表和面板,用于实时监控、分析和可视化各种指标和数据源。 安装插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧找到Grafana,单击“安装”。 设置插件