正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
批量计算 CCE部署使用Kubeflow CCE部署使用Caffe CCE部署使用Tensorflow CCE部署使用Flink CCE部署使用ClickHouse Spark on CCE with OBS安装使用指南
复用等机制减少集群资源的空闲比例。 价值 面向AI计算的容器服务,采用高性能GPU计算实例,并支持多容器共享GPU资源,在AI计算性能上比通用方案提升3~5倍以上,并大幅降低了AI计算的成本,同时帮助数据工程师在集群上轻松部署计算应用,您无需关心复杂的部署运维,专注核心业务,快速实现从0到1快速上线。
用率。 Volcano针对计算型应用提供了作业调度、作业管理、队列管理等多项功能,主要特性包括: 丰富的计算框架支持:通过CRD提供了批量计算任务的通用API,通过提供丰富的插件及作业生命周期高级管理,支持TensorFlow,MPI,Spark等计算框架容器化运行在Kubernetes上。
基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。
相较于传统运维,云原生架构下的运维更加关注监控、日志、事件、告警等数据的自动化采集、可视化呈现和智能化决策。为了提升云原生场景下的运维体验,华为云CCE容器服务带来了新一代的云原生可观测平台,聚焦以下四大能力: 监控中心 告警中心 日志中心 健康中心 监控中心 为了解决云原生用户使用监控系统困难的问题,C
新一代云原生可观测平台之CCE服务监控篇 发布时间:2023/10/24 在云原生容器化浪潮的当下,监控是确保业务稳定性最受关注的问题之一。那么,华为云CCE容器服务又是如何帮助用户提高运维效率呢? 半年来,CCE容器服务的运维团队持续拜访用户,并总结用户在云原生运维场景下的痛点问题,主要有以下三大痛点问题:
将Prometheus监控数据上报至第三方监控平台 操作场景 CCE云原生监控插件可以将集群中收集到的Prometheus指标,上报到您指定的监控平台,例如AOM,或者您也可以指定支持Prometheus数据的第三方监控平台。本文以对接第三方Prometheus实例为例,使用CC
Volcano批量调度系统:加速AI计算的利器 Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台,它弥补了Kubernetes在机器学习、深度学习、HPC、大数据计算等场景下的基本能力缺失,其中包括gang
维人员提供简单易用的告警和日志管理平台是各个云原生平台高度关注的问题。 相较传统系统,云原生场景下应用数量非常巨大,监控指标、事件、日志等运维数据更是海量的。同时,告警配置需要联通多个系统,如告警通知人的配置涉及消息通知系统、指标阈值告警规则涉及监控系统、日志关键字告警涉及日志管
新一代云原生可观测平台之CCE集群健康中心 发布时间:2023/12/27 "Kubernetes运维确实复杂,这不仅需要深入理解各种概念、原理和最佳实践,还需要对集群的健康状态、资源利用率、容器的稳定性等多个方面进行风险评估。当集群出现故障时,我们通常需要花费大量时间来分析各种
CCE集群根证书是Kubernetes认证的基础证书,华为云上的Kubernetes集群管理面托管在CCE管理平台上,证书也在CCE的管理平台上,不对用户开放,这个证书在平台上会定期维护,不会出现过期的情况。 X509证书在Kubernetes集群上也是默认开启的,更新平台自动会维护更新。 获取集群证书
CCE部署使用Caffe 预置条件 资源准备 Caffe分类范例 父主题: 批量计算
CCE部署使用Kubeflow Kubeflow部署 Tensorflow训练 使用Kubeflow和Volcano实现典型AI训练任务 父主题: 批量计算
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
云原生异构计算插件 CCE AI套件(NVIDIA GPU) CCE AI套件(Ascend NPU) 父主题: 插件
Spark on CCE with OBS安装使用指南 安装Spark 使用Spark on CCE 父主题: 批量计算
计算配置 节点类型 参数名 取值范围 默认值 是否允许修改 作用范围 type 无 无 允许 CCE Standard/CCE Turbo CCE Standard集群: 弹性云服务器-虚拟机:基于弹性云服务器部署容器服务。 弹性云服务器-物理机:基于擎天架构的服务器部署容器服务。
计算配置 节点池类型 节点池类型。不填写时默认为vm。 参数名 取值范围 默认值 是否允许修改 作用范围 .spec.type vm、ElasticBMS、pm vm 支持初始化时配置,不支持后续修改 CCE Standard/CCE Turbo 匹配实际节点ECS/BMS规格分类
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
华为云CCE产品文档优化升级 发布时间:2023/10/27 云原生产品技术栈庞大,需要用户对容器、Kubernetes等核心技术都有扎实的理解和掌握;同时问题定位和排查也较为困难,需要用户对不同系统模块原理非常熟悉。这些因素导致云原生产品上手门槛高、配置和运维复杂。为此,CCE