检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
认证与授权 ServiceAccount RBAC
资源与成本规划 本文提供的成本预估费用仅供参考,资源的实际费用与用户所在区域相关,请以华为云管理控制台显示为准。 完成本实践所需的资源如下: 表1 资源和成本规划 资源 资源说明 数量 费用(元) 弹性云服务器ECS 建议选择按需计费。 虚拟机类型:通用计算增强型 节点规格:4核
购买CCE集群,购买GPU节点并使用gpu-beta插件安装显卡驱动。 在集群下添加一个对象存储卷。 数据预置 从https://github.com/zalandoresearch/fashion-mnist下载数据。 获取tensorflow的ML范例,加以简单的修改。 basicClass
Volcano批量调度系统:加速AI计算的利器 Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台,它弥补了Kubernetes在机器学习、深度学习、HPC、大数据计算等场景下的基本能力缺失,其中包括gang
数据保护技术 CCE通过多种数据保护手段和特性,保障数据的安全可靠。 表1 CCE的数据保护手段和特性 数据保护手段 简要说明 详细介绍 服务发现支持证书配置 CCE集群中的应用服务支持使用HTTPS传输协议,保证数据传输的安全性,您可以根据需求创建四层或七层的访问方式来对接负载均衡器。
获取驱动链接-OBS地址 将驱动上传到对象存储服务OBS中,并将驱动文件设置为公共读,方法请参见上传文件。 节点重启时会重新下载驱动进行安装,请保证驱动的OBS桶链接长期有效。 在桶列表单击待操作的桶,进入“概览”页面。 在左侧导航栏,单击“对象”。 单击目标对象名称,在对象详情页复制驱动链接。
API接口,用户必须通过编程或第三方工具访问对象存储。 数据共享:服务器、嵌入式设备、IOT设备等所有调用相同路径,均可访问共享的对象存储数据。 公共/私有网络:对象存储数据允许在公网访问,满足互联网应用需求。 容量与性能:容量无限制,性能较高(IO读写时延10ms级)。 应用场景:适用于(基于OBS界面、OBS工具、OBS
合理分配容器计算资源 只要节点有足够的内存资源,那容器就可以使用超过其申请的内存,但是不允许容器使用超过其限制的资源。如果容器分配了超过限制的内存,这个容器将会被优先结束。如果容器持续使用超过限制的内存,这个容器就会被终结。如果一个结束的容器允许重启,kubelet就会重启它,但是会出现其他类型的运行错误。
获取VPC内网访问IP及域名(华为云VPC内默认会自动加域名解析规则,不需要配置hosts;非华为云节点需要配置hosts),可以在终端节点详情页的“内网域名”中查询。 Harbor上配置镜像仓库。 Harbor在1.10.5以上版本,集成了华为云的SWR对接,只需要在目标(EN
该参数可采用多种类型(file/http/local等),详情请参见官方文档。 访问对象存储服务OBS 使用spark-submit下发hdfs任务。请修改命令最后的参数为租户内实际的文件obs://bucket-name/filename。 spark-submit \ --master
区域与可用区 什么是区域、可用区? 区域和可用区用来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Re
hadoop.fs.obs.secret.key=SK_OF_YOUR_ACCOUNT spark.hadoop.fs.obs.endpoint=OBS_ENDPOINT spark.hadoop.fs.obs.buffer.dir=/root/hadoop-obs/obs-cache spark
Volcano是一个基于Kubernetes的批处理平台,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,通过接入AI、大数据、基因、渲染等诸多行业计算框架服务终端用户,并针对计算型应用提供了作业调度、作业管理、队列管理等多项功能。 一般情况下,Kubernetes在调度工作负
com/BVLC/caffe/blob/master/examples/00-classification.ipynb的过程。 OBS存储数据预置 创建OBS桶,并确认以下文件夹已创建,文件已上传至指定位置(需要使用OBS Browser工具)。 例如:桶内文件路径/文件名,文件下载地址可至github中指定项目的指定路径下查找,示例如1、2所示。
费用等信息,并单击“提交”,开始创建节点。 待GPU节点创建完成后,可前往“节点列表”查看节点状态。 导入OBS存储卷 进入存储管理页面,导入OBS存储数据预置中创建的OBS存储卷。 父主题: 在CCE集群中部署使用Caffe
PromQL查询对应监控数据。 通过API获取华为云Prometheus监控数据 登录AOM 2.0控制台,单击左侧导航栏中的“Prometheus监控 > 实例列表”。 单击对接AOM的Prometheus实例名称,单击“设置”。 查看Grafana数据源配置信息,并根据需求复制公网或内网的HTTP
选择合适的节点数据盘大小 节点在创建时会默认创建一块数据盘,供容器运行时和Kubelet组件使用,详情请参见数据盘空间分配说明。由于容器运行时和Kubelet组件使用的数据盘不可被卸载,且默认大小为100G,出于使用成本考虑,您可手动调整该数据盘容量,最小支持下调至20G,节点上挂载的普通数据盘支持下调至10G。
NPU)是支持容器里使用huawei NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 约束与限制 集群中使用“AI加速型”节点时必须安装CCE AI套件(Ascend NPU)插件。 “AI加速型”节点迁移后会重置节点,如果目标集群
cpu,设置对应的容器规格。 启动命令添加python /home/caffeEx00.py。 挂载刚刚导入的OBS存储盘: 单击“创建”。等待job执行完成,进入OBS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker
数据共享:多台服务器可挂载相同的文件系统,数据可以共享操作和访问。 私有网络:数据访问必须在数据中心内部网络中。 容量与性能:单文件系统容量较高(PB级),性能极佳(IO读写时延ms级)。 应用场景:适用于多读多写(ReadWriteMany)场景下的各种工作负载(Deployment/Stateful