检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。
有关PromQL的更多使用方法,请参见查询Prometheus。 通过控制台获取华为云Prometheus监控数据 在集群中安装云原生监控插件,采集Prometheus监控数据。 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”。 在“插件中心”页面右侧找到云原生监控插件,单击“安装”。
升资源利用率,实现降本增效的云原生混部解决方案。 如上图所示,混部不是简单将小集群合并成一个大集群,然后将多个不同的业务部署在同一个集群中那么简单,而需要确保用户的应用能够部署到合适的位置,并能保障其需要的资源。这也是云原生混部解决方案中的两个核心设计:全域统一调度和资源分级管控。
业务检查 检查项内容 集群升级完毕,由用户验证当前集群正在运行的业务是否正常。 检查步骤 业务不同,验证的方式也有所不同,建议您在升级前确认适合您业务的验证方式,并在升级前后均执行一遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等
卷的不同文件夹。如:tmp,表示容器中挂载路径下的数据会存储在存储卷的tmp文件夹中。不填写时默认为根路径。 权限 只读:只能读容器路径中的数据卷。 读写:可修改容器路径中的数据卷,容器迁移时新写入的数据不会随之迁移,会造成数据丢失。 其余信息都配置完成后,单击“创建工作负载”。
创建CCE节点时可以不添加数据盘吗? 不可以,数据盘是必须要的。 新建节点会给节点绑定一个供kubelet及容器引擎使用的专用数据盘,详情请参见数据盘空间分配说明。CCE数据盘默认使用LVM(Logical Volume Manager)进行磁盘管理,开启后您可以通过空间分配调整数据盘中不同资源的空间占比,具体请参见LVM简介。
Volcano调度器 插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
集群漏洞修复周期 高危漏洞: Kubernetes社区发现漏洞并发布修复方案后,CCE一般在1个月内进行修复,修复策略与社区保持一致。 操作系统紧急漏洞按照操作系统修复策略和流程对外发布,一般在一个月内提供修复方案,用户自行修复。 其他漏洞: 按照版本正常升级流程解决。 修复声明 为
应用备份能力。同时可以将本地压缩包恢复回Kubernetes元数据,实现应用的恢复能力。 数据备份的流程参考如下: 图1 数据备份流程 数据恢复的流程参考如下: 图2 数据恢复流程 在执行恢复操作前,需要准备一个数据恢复配置文件“restore.json”,目的是在应用恢复时自动
Standard或CCE Turbo集群,且集群版本满足以下要求: v1.23集群:v1.23.14-r0及以上版本 v1.25集群:v1.25.9-r0及以上版本 v1.27集群:v1.27.6-r0及以上版本 v1.28集群:v1.28.4-r0及以上版本 其他更高版本的集群 集群中需提前部署可用
Prometheus Server视图 Prometheus本地数据存储模式可以收集有关主机和应用程序的指标数据并存储在集群中,监控数据可以选择上报并存储到AOM或三方监控平台。Prometheus Server视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。
ig。 解决方案 在K8s集群的运维中,多集群之间的切换是无法避免的问题,常见的集群切换方案如下: 方案一:您可以通过指定kubectl的“--kubeconfig”参数来选择每个集群所使用的kubeconfig配置文件,并可使用alias别名的方式来简化命令。 方案二:将多个k
插件的Pod没有到达就绪状态,导致插件无法完成安装/升级。 解决方案 在“总览”页面查看“K8S事件”,确认Pod没有就绪的原因。 常见原因 解决方案 原因一:Pod无法调度 对应事件内容:FailedScheduling 原因详述:集群中的节点无法满足Pod的调度要求,可能由以下一种或多种
与运维等容器全栈能力,为您提供一站式容器平台服务。借助云容器引擎,您可以在华为云上轻松部署、管理和扩展容器化应用程序。 应用管理与运维平台(ServiceStage) ServiceStage应用管理与运维平台是一个应用托管和微服务管理平台,可以帮助企业简化部署、监控、运维和治理
工作负载异常:实例无法写入数据 Pod事件 Pod所在的节点文件系统损坏,新建的Pod无法成功在/var/lib/kubelet/device-plugins/.xxxxx写入数据,Pod通常会出现以下类似事件: Message: Pod Update Plugin resources
CoreDNS是一款通过链式插件的方式给Kubernetes提供DNS解析服务的DNS服务器,为Kubernetes社区推荐的DNS服务器解决方案。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object 插件基础配置参数,无需用户指定。 flavor
检查您节点上的证书数量过多(>1000),由于升级过程中会批量处理证书文件,证书文件过多可能导致节点升级过慢,节点上Pod被驱逐等。 解决方案 方案一:优先建议您重置节点,详情请参考重置节点。 方案二:修复节点上证书轮转异常问题。 进入节点/opt/cloud/cce/kubernetes/kubelet/pki/目录。
netes Service方式,修改配置工作量大。 在集群外自建了一个其他服务,需要将集群中的数据通过固定域名发送到这个服务。 解决方案 使用CoreDNS有以下几种自定义域名解析的方案。 为CoreDNS配置存根域:为特定域名指定域名解析服务器,可以直接在控制台添加,简单易操作。
维管理平台,实时监控您的应用及相关云资源,分析应用健康状态,提供灵活丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况。 LTS:云日志服务(Log Tank Service,简称LTS),用于收集来自主机和云服务的日志数据,通过海量日志数据的分析与
Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano