检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU负载 使用Tensorflow训练神经网络 使用Nvidia-smi工具
为什么exec进入容器后执行GPU相关的操作报错?
父主题: GPU负载
本文将演示在云容器实例中创建GPU类型的负载,以tensorflow的图像分类为示例,演示在容器中直接使用GPU训练一个简单的神经网络。
当前云容器实例提供“通用计算型”和“GPU加速型”两种类型的资源,创建命名空间时需要选择资源类型,后续创建的负载中容器就运行在此类型的集群上。
图1 nginx
云容器实例提供了查看CPU/内存、GPU/显存的界面,您只需要在无状态负载、任务、定时任务中Pod列表的“监控”Tab下即可查看资源使用率,如图1所示。 您也可以在Pod管理中查看所有Pod的资源使用率。 图1 查看监控信息 父主题: 工作负载
计算加速:提供GPU/Ascend等异构芯片加速能力 大规模网络容器实例调度:支持大规模、高并发的容器创建和管理 随启随用、按需付费:容器按需启动,按资源规格和使用时长付费 图1 大数据AI计算场景 生物基因、药物研发等科学计算 生物基因、药品研发等领域需要高性能、密集型计算,同时对成本较敏感
GPU加速型:支持创建含GPU资源的容器实例,适用于深度学习、科学计算、视频处理等场景。 目前,“华南-广州”、“华东-上海二”、“西南-贵阳一”区域暂不支持“GPU加速型”资源。 一个账号在一个区域,目前只能使用5个命名空间。 通用计算型和GPU加速型支持X86镜像。
gpu-accelerated:GPU型,支持创建含GPU资源的容器实例及工作负载,适用于深度学习、科学计算、视频处理等场景。
gpu-accelerated:GPU加速型,突出的图形计算能力,适用于AI等高性能场景。
gpu-accelerated:GPU型,支持创建含GPU资源的容器实例及工作负载,适用于深度学习、科学计算、视频处理等场景。
GPU加速型 计费因子:CPU、内存和GPU,不同规格的实例类型提供不同的计算、存储、GPU加速能力 按需计费 CPU:Core数量 * Core单价 * 计费时长 内存:GB数量 * GB单价 * 计费时长 GPU:GPU数量 * GPU单价 * 计费时长 请参见云容器实例价格详情中的
单击“更换镜像”可以选择新的镜像,如下图所示。 图1 更换镜像 我的镜像:展示了您上传到容器镜像服务的镜像。 开源镜像中心:展示了镜像中心的公共镜像。 共享镜像:展示了容器镜像服务中他人共享的镜像。
如果没有挂载EVS等磁盘,应用数据存储在容器的物理机磁盘,每个Pod存储空间限制为CPU物理机磁盘为20G,GPU物理机磁盘为20G,如果为专属节点可根据客户需求进行调整。
的metadata.annotations中添加cri.cci.io/gpu-driver字段,指定使用哪个版本显卡驱动,取值如下: gpu-418.126 gpu-460.106 创建Pod时挂载OBS的使用限制请参见挂载OBS使用限制。
应用数据存储在容器的物理机磁盘,每个Pod存储空间限制为CPU物理机磁盘为20G,GPU物理机磁盘为20G。
对于GPU加速型Pod(仅GPU型命名空间下才可以选择),Pod中只有一个容器能使用GPU,如果您的Pod中有多个容器,您可以通过开启GPU这个开关选择哪个容器使用GPU。
表3 NVIDIA GPU驱动与CUDA配套关系 NVIDIA GPU驱动版本 CUDA Toolkit版本 460.106 CUDA 11.2.2 Update 2 及以下 418.126 CUDA 10.1 (10.1.105)及以下 GPU镜像 CUDA和cuDNN都是与GPU
通常这种场景下是应用包含一个主容器和几个辅助容器(SideCar Container),如图1所示,例如主容器为一个web服务器,从一个固定目录下对外提供文件服务,而辅助的容器周期性的从外部下载文件存到这个固定目录下。