检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU负载 使用Tensorflow训练神经网络 使用Nvidia-smi工具
为什么exec进入容器后执行GPU相关的操作报错? 问题现象: exec进入容器后执行GPU相关的操作(例如nvidia-smi、使用tensorflow运行GPU训练任务等)报错“cannot open shared object file: No such file or directory”。
使用Nvidia-smi工具 为了支持查看GPU使用情况的场景,需要在镜像中注入nvidia-smi工具,根据购买的专属节点GPU驱动版本选择不同的nvidia-smi二进制文件。 nvidia-smi获取方式。 该二进制文件可以在nvidia官网,根据CUDA Toolkit版
为什么业务运行性能不达预期? 由于CCI服务底层资源是多租户共享的,为了保障用户业务稳定,CCI服务底层对于磁盘IO等是有流控限制的。体现在容器内,主要影响是负载对根目录rootfs的读写、负载标准日志输出数据量都会受到一定限制。如果您的业务运行性能不达预期,可以从以下几个可能的原因进行排查:
采用容器化方式运行,并需要大量GPU、高性能网络和存储等硬件加速能力,并且都是任务型计算,需要快速申请大量资源,计算任务完成后快速释放。本文将演示在云容器实例中创建GPU类型的负载,以tensorflow的图像分类为示例,演示在容器中直接使用GPU训练一个简单的神经网络。 优势
ow、Caffe)均采用容器化方式运行,并需要大量GPU、高性能网络和存储等硬件加速能力,并且都是任务型计算,需要快速申请大量资源,计算任务完成后快速释放。 云容器实例提供如下特性,能够很好的支持这类场景。 计算加速:提供GPU/Ascend等异构芯片加速能力 大规模网络容器实例
户中存在多个团队或项目的情况。 当前云容器实例提供“通用计算型”和“GPU加速型”两种类型的资源,创建命名空间时需要选择资源类型,后续创建的负载中容器就运行在此类型的集群上。 通用计算型 支持区域:全部 GPU加速型 支持区域:华北-北京四、华东-上海一 创建命名空间 工作负载
S等),提供丰富的网络和存储功能。 提供高性能、异构的基础设施(x86服务器、GPU加速型服务器、Ascend加速型服务器),容器直接运行在物理服务器上。 使用Kata容器提供虚拟机级别的安全隔离,结合自有硬件虚拟化加速技术,提供高性能安全容器。 多集群统一管理,容器负载统一调度,使用上无需感知集群存在。
查看资源使用率 当您创建完工作负载后,您也许会非常关心每个Pod的资源利用率。 云容器实例提供了查看CPU/内存、GPU/显存的界面,您只需要在无状态负载、任务、定时任务中Pod列表的“监控”Tab下即可查看资源使用率,如图1所示。 您也可以在Pod管理中查看所有Pod的资源使用率。
云容器实例和云容器引擎有什么区别? 华为云提供高性能、高可用、高安全的企业级容器服务,通过CNCF官方认证的两种Kubernetes服务供用户选择,包括云容器引擎(CCE)与云容器实例(CCI)。 云容器引擎(Cloud Container Engine,简称CCE)提供高度可扩展的、高性能的企业级Kuber
如果不挂载云存储的话,容器运行产生的数据存储在哪里? 如果没有挂载EVS等磁盘,应用数据存储在容器的物理机磁盘,每个Pod存储空间限制为CPU物理机磁盘为20G,GPU物理机磁盘为20G,如果为专属节点可根据客户需求进行调整。 为了确保数据的安全性,在创建容器时容器引擎会从devicemapper获取虚拟化盘,其他容器引擎无法访问。
NVIDIA GPU驱动版本 CUDA Toolkit版本 460.106 CUDA 11.2.2 Update 2 及以下 418.126 CUDA 10.1 (10.1.105)及以下 GPU镜像 CUDA和cuDNN都是与GPU相关的技术,用于加速各种计算任务,特别是深度学习任务。在使用NVIDIA
通用计算型”和“GPU型”两种类型的资源,创建命名空间时需要选择资源类型,后续创建的负载中容器就运行在此类型的集群上。 通用计算型:支持创建含CPU资源的容器实例及工作负载,适用于通用计算场景。 GPU型:支持创建含GPU资源的容器实例及工作负载,适用于深度学习、科学计算、视频处理等场景。
通用计算型”和“GPU型”两种类型的资源,创建命名空间时需要选择资源类型,后续创建的负载中容器就运行在此类型的集群上。 通用计算型:支持创建含CPU资源的容器实例及工作负载,适用于通用计算场景。 GPU型:支持创建含GPU资源的容器实例及工作负载,适用于深度学习、科学计算、视频处理等场景。
云容器实例支持挂载日志存储卷采集日志,您只需要在创建负载的时候添加日志存储卷,即可将日志写入到日志存储卷中。 业务运行性能不达预期,可能是日志量过大的原因,详细请参见为什么业务运行性能不达预期。 云容器实例对接了应用运维管理(Application Operations Management,AOM),AOM会采集日志存储中的“
华南-广州 cn-south-1 西南-贵阳一 cn-southwest-2 Pod规格 云容器实例当前支持使用GPU,您可以根据需要选择,实例收费详情请参见产品价格详情。 当不使用GPU时,Pod规格需满足如下要求: Pod的CPU取值范围为0.25核-32核,或者自定义选择48核、64核,且CPU必须为0
容器工作负载类 为什么业务运行性能不达预期? 如何设置实例(Pod)数? 如何查看资源配额? 如何设置应用的探针? 弹性伸缩策略如何配置? 使用sample镜像创建工作负载无法运行 调用接口删除Deployment后怎么还能查看到Pod? 为什么exec进入容器后执行GPU相关的操作报错?
Template来创建相应的Pod。 容器的规格 云容器实例支持使用GPU(必须在GPU类型命名空间下)或不使用GPU。 当前提供3种类型的Pod,包括通用计算型(通用计算型命名空间下使用)、RDMA加速型和GPU加速型(GPU型命名空间下使用)。具体的规格信息请参考约束与限制中的“Pod规格”。
当前云容器实例提供“通用计算型”和“GPU加速型”两种类型的资源,创建命名空间时需要选择资源类型,后续创建的负载中容器就运行在此类型的集群上。 通用计算型:支持创建含CPU资源的容器实例,适用于通用计算场景。 GPU加速型:支持创建含GPU资源的容器实例,适用于深度学习、科学计算、视频处理等场景。
general-computing:通用计算型,基本水平的计算、存储和网络资源,适用于通用工作负载场景。 gpu-accelerated:GPU加速型,突出的图形计算能力,适用于AI等高性能场景。 Namespace下必须要创建一个Network,用于定义kubernetes中一个nam