检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
批量计算 在CCE集群中部署使用Kubeflow 在CCE集群中部署使用Caffe 在CCE集群中部署使用Tensorflow 在CCE集群中部署使用Flink 在CCE集群中部署使用ClickHouse 在CCE集群中部署使用Spark
在CCE集群中部署使用Flink Flink是一个用于大规模数据处理的分布式流处理框架和计算引擎,可以处理有界(批处理)和无界(流处理)数据,提供低延迟、高吞吐量的实时数据处理能力,同时支持复杂事件处理和数据分析。在CCE集群中部署Flink,可以帮助您构建高效、可靠且灵活的数据
在CCE集群中部署使用Kubeflow Kubeflow部署 Tensorflow训练 使用Kubeflow和Volcano实现典型AI训练任务 父主题: 批量计算
基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。
IfNotPresent imagePullSecrets: - name: default-secret 父主题: 批量计算
"clickhousekeeperinstallations.clickhouse-keeper.altinity.com" deleted ... 父主题: 批量计算
资源准备 在集群中添加GPU节点 登录CCE控制台,单击已创建的集群,进入集群控制台。 安装GPU插件。 在左侧导航栏中选择“插件管理”,在右侧找到gpu-beta(或gpu-device-plugin),单击“安装”。 在安装插件页面,设置插件关键参数。 Nvidia驱动:填写
Tensorflow训练 Kubeflow部署成功后,使用ps-worker的模式来进行Tensorflow训练就变得非常容易。本节介绍一个Kubeflow官方的Tensorflow训练范例,您可参考TensorFlow Training (TFJob)获取更详细的信息。 创建MNIST示例
在CCE集群中部署使用Spark 安装Spark 使用Spark on CCE 父主题: 批量计算
在CCE集群中部署使用Caffe 预置条件 资源准备 Caffe分类范例 父主题: 批量计算
Caffe分类范例 本实践采用caffe官方的分类例子,地址为https://github.com/BVLC/caffe/blob/master/examples/00-classification.ipynb。 使用CPU 创建一个普通job,镜像输入第三方镜像bvlc/caffe:cpu,设置对应的容器规格。
应用程序完成后,执行程序的Pod将终止并清理,但驱动程序Pod仍然存在并保持在“已停止”状态,直到最终进行垃圾回收或手动清理。在“已停止”状态下,驱动程序Pod不会使用任何计算或内存资源。 图1 提交机制的工作原理 在CCE上运行SparkPi例子 在执行Spark的机器上安装kubectl,详情请参见通过kubectl连接集群。
预置条件 本实践提供在CCE上运行caffe的基础分类例子https://github.com/BVLC/caffe/blob/master/examples/00-classification.ipynb的过程。 OBS存储数据预置 创建OBS桶,并确认以下文件夹已创建,文件已上传至指定位置(需要使用OBS
安装Spark 前提条件 您需要准备一台可访问公网的Linux机器,节点规格建议为4U8G及以上。 配置JDK 以CentOS系统为例,安装JDK 1.8。 查询可用的JDK版本。 yum -y list java* 选择安装JDK 1.8。 yum install -y java-1
Volcano批量调度系统:加速AI计算的利器 Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台,它弥补了Kubernetes在机器学习、深度学习、HPC、大数据计算等场景下的基本能力缺失,其中包括gang
x86_64内核系统 1.1.11 v1.15 v1.17 支持用户自定义驱动地址下载驱动 支持v1.15、v1.17集群 父主题: 云原生异构计算插件
计算配置 节点池类型 节点池类型。不填写时默认为vm。 参数名 取值范围 默认值 是否允许修改 作用范围 .spec.type vm、ElasticBMS、pm vm 支持初始化时配置,不支持后续修改 CCE Standard/CCE Turbo 匹配实际节点ECS/BMS规格分类
NPU设备的管理插件 1.0.3 v1.13 v1.15 v1.17 支持容器里使用huawei NPU设备的管理插件 父主题: 云原生异构计算插件
复用等机制减少集群资源的空闲比例。 价值 面向AI计算的容器服务,采用高性能GPU计算实例,并支持多容器共享GPU资源,在AI计算性能上比通用方案提升3~5倍以上,并大幅降低了AI计算的成本,同时帮助数据工程师在集群上轻松部署计算应用,您无需关心复杂的部署运维,专注核心业务,快速实现从0到1快速上线。
计算配置 节点类型 参数名 取值范围 默认值 是否允许修改 作用范围 type 无 无 允许 CCE Standard/CCE Turbo CCE Standard集群: 弹性云服务器-虚拟机:基于弹性云服务器部署容器服务。 弹性云服务器-物理机:基于擎天架构的服务器部署容器服务。