检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
批量计算 CCE部署使用Kubeflow CCE部署使用Caffe CCE部署使用Tensorflow CCE部署使用Flink CCE部署使用ClickHouse Spark on CCE with OBS安装使用指南
复用等机制减少集群资源的空闲比例。 价值 面向AI计算的容器服务,采用高性能GPU计算实例,并支持多容器共享GPU资源,在AI计算性能上比通用方案提升3~5倍以上,并大幅降低了AI计算的成本,同时帮助数据工程师在集群上轻松部署计算应用,您无需关心复杂的部署运维,专注核心业务,快速实现从0到1快速上线。
用率。 Volcano针对计算型应用提供了作业调度、作业管理、队列管理等多项功能,主要特性包括: 丰富的计算框架支持:通过CRD提供了批量计算任务的通用API,通过提供丰富的插件及作业生命周期高级管理,支持TensorFlow,MPI,Spark等计算框架容器化运行在Kubernetes上。
基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。
将Prometheus监控数据上报至第三方监控平台 操作场景 CCE云原生监控插件可以将集群中收集到的Prometheus指标,上报到您指定的监控平台,例如AOM,或者您也可以指定支持Prometheus数据的第三方监控平台。本文以对接第三方Prometheus实例为例,使用CC
Volcano批量调度系统:加速AI计算的利器 Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台,它弥补了Kubernetes在机器学习、深度学习、HPC、大数据计算等场景下的基本能力缺失,其中包括gang
与运维等容器全栈能力,为您提供一站式容器平台服务。借助云容器引擎,您可以在华为云上轻松部署、管理和扩展容器化应用程序。 应用管理与运维平台(ServiceStage) ServiceStage应用管理与运维平台是一个应用托管和微服务管理平台,可以帮助企业简化部署、监控、运维和治理
CCE集群根证书是Kubernetes认证的基础证书,华为云上的Kubernetes集群管理面托管在CCE管理平台上,证书也在CCE的管理平台上,不对用户开放,这个证书在平台上会定期维护,不会出现过期的情况。 X509证书在Kubernetes集群上也是默认开启的,更新平台自动会维护更新。 获取集群证书
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
CCE部署使用Kubeflow Kubeflow部署 Tensorflow训练 使用Kubeflow和Volcano实现典型AI训练任务 父主题: 批量计算
CCE部署使用Caffe 预置条件 资源准备 Caffe分类范例 父主题: 批量计算
云原生异构计算插件 CCE AI套件(NVIDIA GPU) CCE AI套件(Ascend NPU) 父主题: 插件
Spark on CCE with OBS安装使用指南 安装Spark 使用Spark on CCE 父主题: 批量计算
计算配置 节点类型 参数名 取值范围 默认值 是否允许修改 作用范围 type 无 无 允许 CCE Standard/CCE Turbo CCE Standard集群: 弹性云服务器-虚拟机:基于弹性云服务器部署容器服务。 弹性云服务器-物理机:基于擎天架构的服务器部署容器服务。
计算配置 节点池类型 节点池类型。不填写时默认为vm。 参数名 取值范围 默认值 是否允许修改 作用范围 .spec.type vm、ElasticBMS、pm vm 支持初始化时配置,不支持后续修改 CCE Standard/CCE Turbo 匹配实际节点ECS/BMS规格分类
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
使用Volcano调度工作负载 Volcano是一个基于Kubernetes的批处理平台,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,通过接入AI、大数据、基因、渲染等诸多行业计算框架服务终端用户,并针对计算型应用提供了作业调度、作业管理、队列管理等多项功能。 一般情
配置VPC终端节点。 获取VPC内网访问IP及域名(华为云VPC内默认会自动加域名解析规则,不需要配置hosts;非华为云节点需要配置hosts),可以在终端节点详情页的“内网域名”中查询。 Harbor上配置镜像仓库。 Harbor在1.10.5以上版本,集成了华为云的SWR对接,只需要在目标(E
华为云支持哪几种开具发票模式? 华为云支持“按账期索取发票”和“按订单索取发票”模式。 您可在费用中心的发票管理开具发票。 父主题: 计费类
成本计算模型 工作负载成本计算原理 工作负载成本是由Pod成本聚合而成。 Pod成本:使用监控指标和实际账单作为输入,通过CPU、内存使用量占整体节点资源比例计算出来的成本,结合Pod关联PVC存储的成本。 计算过程中,Pod的使用量为当前采样时刻下申请量(Request)和实际使用量(Real