检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
各个模型深度学习训练加速框架的选择 LlamaFactory框架使用两种训练框架: DeepSpeed和Accelerate都是针对深度学习训练加速的工具,但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架,主要针对大规模模型和大规模数据集的训练。
此处 --train_dir 表示训练结果存储路径,其前缀 /tmp/sfs0 需要与4.c中设置的NFS“容器内挂载路径”路径保持一致,否则训练结果无法写入NFS中。 --max_steps表示训练迭代的次数,这里指定了10000次迭代,完成模型训练大概耗时3分钟,如果不指定,默认
为什么exec进入容器后执行GPU相关的操作报错? 问题现象: exec进入容器后执行GPU相关的操作(例如nvidia-smi、使用tensorflow运行GPU训练任务等)报错“cannot open shared object file: No such file or directory”。 问题原因:
Toolkit运行VASP任务,为什么概率性运行失败? Intel oneAPI Toolkit(Intel并行计算平台)运行的VASP(用于电子结构计算和量子力学-分子动力学模拟)任务对CPU硬件版本有深度依赖,在小规格Pod场景下概率性运行失败,建议切换oneAPI版本或使用4核以上Pod运行。 父主题:
CCE突发弹性引擎(对接 CCI)作为一种虚拟的kubelet用来连接Kubernetes集群和其他平台的API。Bursting的主要场景是将Kubernetes API扩展到无服务器的容器平台(如CCI)。 基于该插件,支持用户在短时高负载场景下,将部署在云容器引擎CCE上的无状态负
基于Kubernetes的负载模型提供负载快速部署、弹性负载均衡、弹性扩缩容、蓝绿发布等重要能力。 云容器实例学习路径 您可以借助云容器实例成长地图,快速了解产品,由浅入深学习使用和运维CCI。
应用场景 大数据、AI计算 当前主流的大数据、AI训练和推理等应用(如Tensorflow、Caffe)均采用容器化方式运行,并需要大量GPU、高性能网络和存储等硬件加速能力,并且都是任务型计算,需要快速申请大量资源,计算任务完成后快速释放。 云容器实例提供如下特性,能够很好的支持这类场景。
GPU负载 使用Tensorflow训练神经网络 使用Nvidia-smi工具
CCE突发弹性引擎(对接 CCI)作为一种虚拟的kubelet用来连接Kubernetes集群和其他平台的API。Bursting的主要场景是将Kubernetes API扩展到无服务器的容器平台(如CCI)。 基于该插件,支持用户在短时高负载场景下,将部署在云容器引擎CCE上的无状态负
使用CCI部署静态Web应用 本节通过在云容器实例上部署一个名称为2048的静态Web游戏应用为例,帮助您学习如何使用云容器实例。 您将按以下流程学习如何使用云容器实例。 操作流程 操作步骤 说明 准备工作 您需要注册华为账号,并为账户充值。 步骤一:构建镜像并上传至SWR镜像仓库
sorflow开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现Tensorflow的单机或分布式训练。Tensorflow开源框架的信息详见:https://www.tensorflow.org 。 URI POST /apis/kubeflow
PyTorchJob即PyTorch任务,是基于PyTorch开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现PyTorch的训练。 URI POST /apis/kubeflow.org/v1/namespaces/{namespace}/pytorchjobs 表1
MXJob即MXNet任务,是基于MXNet开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现MXNet的训练。MXNet开源框架的信息详见:https://mxnet.incubator.apache.org/。 URI POST /apis/kubeflow
CCI提供了多种创建工作负载的方法,来满足您的业务所需。 最佳实践 Dockerfile参数在云容器实例中如何使用 使用Tensorflow训练神经网络 使用多种方法创建工作负载 05 进阶 云容器实例提供了定制的kubectl工具,支持使用Kubectl命令行创建负载等资源。 二次开发
用户可以通过CCE的“CCE Log Collector”插件来收集pod的日志,提升工作负载的可观测性。通过阅读本章用户可以快速搭建日志平台,在CCE的日志观测CCI侧日志。 弹性到CCI的负载会默认开启容器标准输出采集并上报到应用运维管理,AOM每月赠送每个租户500M的免费
progressDeadlineSeconds: 600 通过公网访问Prometheus平台 当工作负载创建完成后,您可以给负载绑定ELB实例,通过公网访问Prometheus平台,查看监控数据。 配置公网访问-工作负载创建完成后设置 在工作负载创建完成后对Service进
权”。 授信成功后,将会创建一个委托,委托名称为“cci_admin_trust”,您可以在IAM服务控制台中查看。 (可选)上传镜像 云平台提供了容器镜像服务,您可以上传容器镜像到容器镜像仓库中,创建负载时使用该镜像,具体使用方法请参见客户端上传镜像。 CCI当前暂不支持对接第三方镜像仓库。
通用计算型:支持创建含CPU资源的容器实例及工作负载,适用于通用计算场景。 GPU型:支持创建含GPU资源的容器实例及工作负载,适用于深度学习、科学计算、视频处理等场景。 Network是云容器实例扩展的一种Kubernetes资源对象,用于关联VPC及子网,从而使得容器实例能够使用公有云的网络资源。
通用计算型:支持创建含CPU资源的容器实例及工作负载,适用于通用计算场景。 GPU型:支持创建含GPU资源的容器实例及工作负载,适用于深度学习、科学计算、视频处理等场景。 Network是云容器实例扩展的一种Kubernetes资源对象,用于关联VPC及子网,从而使得容器实例能够使用公有云的网络资源。
1 (10.1.105)及以下 GPU镜像 CUDA和cuDNN都是与GPU相关的技术,用于加速各种计算任务,特别是深度学习任务。在使用NVIDIA GPU进行深度学习时,通常需要安装CUDA和cuDNN。请使用配套关系的基础镜像。 Pod存储空间限制 如果没有挂载EVS等磁盘,应
内核参数配置 CCI服务底座使用安全容器构建了业内领先的Serverless容器平台,同物理机系统内核隔离且互不影响。对于资深业务部署场景,内核参数调优是比较通用的方式。在安全范围内,CCI服务允许客户根据Kubernetes社区推荐的方案,通过Pod的安全上下文(Security