检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
将Prometheus监控数据上报至第三方监控平台 操作场景 CCE云原生监控插件可以将集群中收集到的Prometheus指标,上报到您指定的监控平台,例如AOM,或者您也可以指定支持Prometheus数据的第三方监控平台。本文以对接第三方Prometheus实例为例,使用CC
为一个逻辑卷,实际写入数据时会先往一个基本物理卷上写入,当存储空间占满时再往另一个基本物理卷写入。 条带化:有两块以上数据盘时才可支持选择条带化模式。创建逻辑卷时指定条带化,当实际写入数据时会将连续数据分成大小相同的块,然后依次存储在多个物理卷上,实现数据的并发读写从而提高读写性能。条带化模式的存储池不支持扩容。
行。 调小数据盘容量后,建议您的集群安装npd插件,用于检测可能出现的节点磁盘压力问题,以便您及时感知。如出现节点磁盘压力问题,可根据数据盘空间不足时如何解决进行解决。 约束与限制 仅1.19及以上集群支持调小容器运行时和Kubelet组件使用的数据盘容量。 调整数据盘大小功能只
低了AI计算的成本,同时帮助数据工程师在集群上轻松部署计算应用,您无需关心复杂的部署运维,专注核心业务,快速实现从0到1快速上线。 优势 CCE通过集成Volcano,在高性能计算、大数据、AI等领域有如下优势: 多种类型作业混合部署:支持AI、大数据、HPC作业类型混合部署。
数据保护技术 CCE通过多种数据保护手段和特性,保障数据的安全可靠。 表1 CCE的数据保护手段和特性 数据保护手段 简要说明 详细介绍 服务发现支持证书配置 CCE集群中的应用服务支持使用HTTPS传输协议,保证数据传输的安全性,您可以根据需求创建四层或七层的访问方式来对接负载均衡器。
Prometheus Server视图 Prometheus本地数据存储模式可以收集有关主机和应用程序的指标数据并存储在集群中,监控数据可以选择上报并存储到AOM或三方监控平台。Prometheus Server视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。
本文介绍如何在CCE集群中安装及配置Volcano插件,具体使用方法请参见Volcano调度。 在使用Volcano作为调度器时,建议将集群中所有工作负载都使用Volcano进行调度,以避免多调度器同时工作导致的一些调度资源冲突问题。 安装插件 登录CCE控制台,单击集群名称进入集群,单击左
Prometheus Agent视图 Prometheus Agent是轻量化的容器监控模式,可以收集有关主机和应用程序的指标数据,并将数据上报并存储到AOM或三方监控平台。Prometheus Agent视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。
某一路径下,以满足数据持久化需求,SFS存储卷适用于多读多写的持久化存储,适用场景包括:媒体处理、内容管理、大数据分析和分析工作负载程序等。 图1 CCE挂载文件存储卷 使用说明 符合标准文件协议:用户可以将文件系统挂载给服务器,像使用本地文件目录一样。 数据共享:多台服务器可挂
Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano
监控中心概述 监控中心是华为云打造的新一代云原生容器运维平台,可实时监控应用及资源,采集各项指标及事件等数据以分析应用健康状态,提供全面、清晰、多维度数据可视化能力,兼容主流开源组件,并提供快捷故障定位的能力。 功能介绍 多维度数据洞察:提供基于Kubernetes原生类型的容器监控
Volcano调度器 插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。
cce:cluster:delete 删除集群 cce:cluster:update 更新集群,如后续允许集群支持RBAC,调度参数更新等 cce:cluster:upgrade 升级集群 cce:cluster:start 唤醒集群 cce:cluster:stop 休眠集群 cce:cluster:list
卷的不同文件夹。如:tmp,表示容器中挂载路径下的数据会存储在存储卷的tmp文件夹中。不填写时默认为根路径。 权限 只读:只能读容器路径中的数据卷。 读写:可修改容器路径中的数据卷,容器迁移时新写入的数据不会随之迁移,会造成数据丢失。 其余信息都配置完成后,单击“创建工作负载”。
实现典型分布式AI训练任务 下面将展示如何基于Kubeflow和Volcano,并使用MNIST数据集轻松的完成数字图像分类模型的分布式训练。 登录CCE控制台,单击集群名称进入一个集群。 在CCE集群上部署Volcano环境。 单击左侧栏目树中的“插件管理”,单击Volcano插件下方的
CCE集群删除之后相关数据能否再次找回? 问题描述: CCE集群删除之后相关数据能否再次找回? 问题解答: 集群删除之后,部署在集群上的工作负载也会同步删除,无法恢复,请慎重删除集群。 父主题: 集群运行
如果您的应用系统与其他系统(例如:数据库系统)、应用系统之间需要使用IPv6进行内网访问,则您必须使用IPv6双栈。 使用IPv6双栈请参考IPv4/IPv6双栈网络、IPv6弹性公网IP。 约束与限制 支持双栈的集群: 集群类型 集群网络模型 支持的集群版本 其他说明 CCE Standard集群 容器隧道网络
段作为扩展网段。 同VPC的非集群内ECS,如果需要和集群互访,访问会做SNAT, Pod源地址是节点IP而非Pod IP。 如果扩展网段没添加过集群节点,那扩展网段的ECS不能访问集群内Pod;扩展网段添加集群节点后,扩展网段的ECS可以访问集群内Pod。 操作步骤 登录VPC控制台,在左侧导航栏选择“虚拟私有云
业务检查 检查项内容 集群升级完毕,由用户验证当前集群正在运行的业务是否正常。 检查步骤 业务不同,验证的方式也有所不同,建议您在升级前确认适合您业务的验证方式,并在升级前后均执行一遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等