检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU负载 使用Tensorflow训练神经网络 使用Nvidia-smi工具
为什么exec进入容器后执行GPU相关的操作报错? 问题现象: exec进入容器后执行GPU相关的操作(例如nvidia-smi、使用tensorflow运行GPU训练任务等)报错“cannot open shared object file: No such file or directory”。
应用场景 当前主流的大数据、AI训练和推理等应用(如Tensorflow、Caffe)均采用容器化方式运行,并需要大量GPU、高性能网络和存储等硬件加速能力,并且都是任务型计算,需要快速申请大量资源,计算任务完成后快速释放。本文将演示在云容器实例中创建GPU类型的负载,以tensorfl
使用Nvidia-smi工具 为了支持查看GPU使用情况的场景,需要在镜像中注入nvidia-smi工具,根据购买的专属节点GPU驱动版本选择不同的nvidia-smi二进制文件。 nvidia-smi获取方式。 该二进制文件可以在nvidia官网,根据CUDA Toolkit版
tes API创建和使用容器负载。 图2 产品架构 基于云平台底层网络和存储服务(VPC、ELB、NAT、EVS、OBS、SFS等),提供丰富的网络和存储功能。 提供高性能、异构的基础设施(x86服务器、GPU加速型服务器、Ascend加速型服务器),容器直接运行在物理服务器上。
用户中存在多个团队或项目的情况。 当前云容器实例提供“通用计算型”和“GPU加速型”两种类型的资源,创建命名空间时需要选择资源类型,后续创建的负载中容器就运行在此类型的集群上。 通用计算型 支持区域:全部 GPU加速型 支持区域:华北-北京四、华东-上海一 创建命名空间 工作负载
general-computing:通用计算型,支持创建含CPU资源的容器实例及工作负载,适用于通用计算场景。 gpu-accelerated:GPU型,支持创建含GPU资源的容器实例及工作负载,适用于深度学习、科学计算、视频处理等场景。 假如上面Namespace定义的文件名称为ns.yaml,则执行kubectl
general-computing:通用计算型,支持创建含CPU资源的容器实例及工作负载,适用于通用计算场景。 gpu-accelerated:GPU型,支持创建含GPU资源的容器实例及工作负载,适用于深度学习、科学计算、视频处理等场景。 假如上面Namespace定义的文件名称为ns.yaml,则执行kubectl
NVIDIA GPU驱动版本 CUDA Toolkit版本 460.106 CUDA 11.2.2 Update 2 及以下 418.126 CUDA 10.1 (10.1.105)及以下 GPU镜像 CUDA和cuDNN都是与GPU相关的技术,用于加速各种计算任务,特别是深度学习任务。在使用NVIDIA
时,CPU和内存规格建议配置如下: "obssidecar-injector-webhook/cpu": "500m", "obssidecar-injector-webhook/memory": "1024Mi" 当业务容器挂载多个obs并行文件系统时,相应CPU和内存规格逐倍增加。
当前主流的大数据、AI训练和推理等应用(如Tensorflow、Caffe)均采用容器化方式运行,并需要大量GPU、高性能网络和存储等硬件加速能力,并且都是任务型计算,需要快速申请大量资源,计算任务完成后快速释放。 云容器实例提供如下特性,能够很好的支持这类场景。 计算加速:提供GPU/Ascend等异构芯片加速能力
计费因子:CPU和内存,不同规格的实例类型提供不同的计算和存储能力 按需计费 CPU:Core数量 * Core单价 * 计费时长 内存:GB数量 * GB单价 * 计费时长 请参见云容器实例价格详情中的“价格详情”。 GPU加速型 计费因子:CPU、内存和GPU,不同规格的实例
当前云容器实例提供“通用计算型”和“GPU加速型”两种类型的资源,创建命名空间时需要选择资源类型,后续创建的负载中容器就运行在此类型的集群上。 通用计算型:支持创建含CPU资源的容器实例,适用于通用计算场景。 GPU加速型:支持创建含GPU资源的容器实例,适用于深度学习、科学计算、视频处理等场景。
一个Pod内最多支持5个容器 Pod中所有容器和InitContainer(启动容器)规格中的request和limit相等 详情请参见Pod规格计算方式。 GPU加速型Pod提供NVIDIA TeslaV100 32G显卡、NVIDIA TeslaV100 16G显卡和NVIDIA Tesla T4显卡,具体的规格有如下所示。
查看资源使用率 当您创建完工作负载后,您也许会非常关心每个Pod的资源利用率。 云容器实例提供了查看CPU/内存、GPU/显存的界面,您只需要在无状态负载、任务、定时任务中Pod列表的“监控”Tab下即可查看资源使用率,如图1所示。 您也可以在Pod管理中查看所有Pod的资源使用率。
如果不挂载云存储的话,容器运行产生的数据存储在哪里? 如果没有挂载EVS等磁盘,应用数据存储在容器的物理机磁盘,每个Pod存储空间限制为CPU物理机磁盘为20G,GPU物理机磁盘为20G,如果为专属节点可根据客户需求进行调整。 为了确保数据的安全性,在创建容器时容器引擎会从devicemapper获取虚拟化盘,其他容器引擎无法访问。
描述信息,少于等于250个字符。 Pod规格 您可以选择使用GPU(只能在GPU型命名空间下)或不使用GPU。 当前提供3种类型的Pod,包括通用计算型(通用计算型命名空间下使用)、RDMA加速型和GPU加速型(GPU型命名空间下使用)。具体的规格信息请参考约束与限制中的“Pod规格”。
pod/nginx created 容器运行的操作系统内核版本由4.18版本升级至5.10版本。 使用GPU 云容器实例支持使用GPU(必须在GPU类型命名空间下),申请GPU资源的方法非常简单,只需要在容器定制中申请GPU字段即可。 具体的规格信息请参考约束与限制中的“Pod规格”。 您需要设置Pod的metadata
Deployment、StatefulSet和Job这些控制器创建应用,从而保障应用高可用。 云容器实例中Pod规格有限制,具体的限制请参见约束限制页面的“Pod规格”部分。 当前支持使用Nvidia GPU的驱动版本为418.126和460.106,您应用程序中使用的CUDA需
io/flavor字段为如下值。 general-computing:通用计算型,基本水平的计算、存储和网络资源,适用于通用工作负载场景。 gpu-accelerated:GPU加速型,突出的图形计算能力,适用于AI等高性能场景。 Namespace下必须要创建一个Network