云服务器内容精选

华为云首页用户手册

基于ModelArts Standard运行GPU训练作业

AI开发平台MODELARTS-在ModelArts Standard上运行GPU单机单卡训练作业:上传镜像

上传镜像客户端上传镜像，是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。如果容器引擎客户端机器为云上的E CS 或CCE节点，根据机器所在区域有两种网络链路可以选择：如果机器与容器镜像仓库在同一区域，则上传镜像走内网链路。如果机器与容器镜像仓库不在同一区域，则上传镜像走公网链路，机器需要绑定弹性公网IP。使用客户端上传镜像，镜像的每个layer大小不能大于10G。上传镜像的容器引擎客户端版本必须为1.11.2及以上。连接容器镜像服务。登录容器镜像服务控制台。单击右上角“创建组织”，输入组织名称完成组织创建。请自定义组织名称，本示例使用“deep-learning”，下面的命令中涉及到组织名称“deep-learning”也请替换为自定义的值。选择左侧导航栏的“总览”，单击页面右上角的“登录指令”，在弹出的页面中单击复制登录指令。此处生成的登录指令有效期为24小时，如果需要长期有效的登录指令，请参见获取长期有效登录指令。获取了长期有效的登录指令后，在有效期内的临时登录指令仍然可以使用。登录指令末尾的域名为镜像仓库地址，请记录该地址，后面会使用到。在安装容器引擎的机器中执行上一步复制的登录指令。登录成功会显示“Login Succeeded”。在安装容器引擎的机器上执行如下命令，为镜像打标签。 docker tag [镜像名称1:版本名称1] [镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2] [镜像名称1:版本名称1]：${image_name}:${image_version}请替换为您所要上传的实际镜像的名称和版本名称。 [镜像仓库地址]：可在SWR控制台上查询，即1.c中登录指令末尾的域名。 [组织名称]：/${organization_name}请替换为您创建的组织。 [镜像名称2:版本名称2]：${image_name}:${image_version}请替换为您期待的镜像名称和镜像版本。示例： docker tag ${image_name}:${image_version} swr.cn-north-4.myhuaweicloud.com/${organization_name}/${image_name}:${image_version} 上传镜像至镜像仓库。 docker push [镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2] 示例： docker push swr.cn-north-4.myhuaweicloud.com/${organization_name}/${image_name}:${image_version} 上传镜像完成后，返回容器镜像服务控制台，在“我的镜像”页面，执行刷新操作后可查看到对应的镜像信息。为什么使用客户端上传镜像失败？

AI开发平台MODELARTS 基于ModelArts Standard运行GPU训练作业
AI开发平台MODELARTS-在ModelArts Standard上运行GPU单机单卡训练作业:监控资源

监控资源用户可以通过资源占用情况窗口查看计算节点的资源使用情况，最多可显示最近三天的数据。在资源占用情况窗口打开时，会定期向后台获取最新的资源使用率数据并刷新。操作一：如果训练作业使用多个计算节点，可以通过实例名称的下拉框切换节点。操作二：单击图例“cpuUsage”、“gpuMemUsage”、“gpuUtil”、“memUsage”“npuMemUsage”、“npuUtil”、可以添加或取消对应参数的使用情况图。操作三：鼠标悬浮在图片上的时间节点，可查看对应时间节点的占用率情况。表2 参数说明参数说明 cpuUsage cpu使用率。 gpuMemUsage gpu内存使用率。 gpuUtil gpu使用情况。 memUsage 内存使用率。 npuMemUsage npu内存使用率。 npuUtil npu使用情况。

AI开发平台MODELARTS 基于ModelArts Standard运行GPU训练作业
AI开发平台MODELARTS-在ModelArts Standard上运行GPU训练作业的场景介绍

在ModelArts Standard上运行GPU训练作业的场景介绍不同AI模型训练所需要的数据量和算力不同，在训练时选择合适的存储及训练方案可提升模型训练效率与资源性价比。ModelArts Standard支持单机单卡、单机多卡和多机多卡的训练场景，满足不同AI模型训练的要求。 ModelArts Standard提供了公共资源池和专属资源池，专属资源池不与其他用户共享资源，更加高效。针对企业多用户场景，推荐使用专属资源池开展AI模型训练。本文提供了端到端案例指导，帮助您快速了解如何在ModelArts Standard上选择合适的训练方案并进行模型训练。针对不同的数据量和算法情况，推荐以下训练方案：单机单卡：小数据量（1G训练数据）、低算力场景（1卡Vnt1），存储方案推荐使用“OBS的并行文件系统（存放数据和代码）”。单机多卡：中等数据量（50G左右训练数据）、中等算力场景（8卡Vnt1），存储方案推荐使用“SFS（存放数据和代码）”。多机多卡：大数据量（1T训练数据）、高算力场景（4台8卡Vnt1），存储方案推荐使用“SFS（存放数据）+普通OBS桶（存放代码）”，采用分布式训练。当使用SFS+OBS的存储方案可以实现存储加速，该方案的端到端实践案例请参见面向AI场景使用OBS+SFS Turbo的存储加速实践。表1 不同场景所需服务及购买推荐场景 OBS SFS SWR DEW ModelArts VPC ECS EVS 单机单卡按需购买（并行文件系统） × 免费免费包月购买免费 × 按需购买单机多卡 × 包月购买（HPC型500G）免费免费包月购买免费包月购买（Ubuntu 18.04，建议不小于2U8G，本地存储空间100G，带EIP全动态BGP，按流量10M带宽） × 多机多卡按需购买（普通OBS桶）包月购买（HPC型500G）免费免费包月购买免费包月购买（Ubuntu 18.04，建议不小于2U8G，本地存储空间100G，带EIP全动态BGP，按流量10M带宽） × 表2 开源数据集训练效率参考算法及数据资源规格 Epoch数预计运行时长（hh:mm:ss）算法：PyTorch官方针对ImageNet的样例数据：ImageNet分类数据子集 1机1卡Vnt1 10 0:05:03 算法：YOLOX 数据：COCO2017 1机1卡Vnt1 10 03:33:13 1机8卡Vnt1 10 01:11:48 4机8卡Vnt1 10 0:36:17 算法：Swin-Transformer 数据：ImageNet21K 1机1卡Vnt1 10 197:25:03 1机8卡Vnt1 10 26:10:25 4机8卡Vnt1 10 07:08:44 表3 训练各步骤性能参考步骤说明预计时长镜像下载首次下载镜像的时间（25G）。 8分钟资源调度点创建训练作业开始到变成运行中的时间（资源充足、镜像已缓存）。 20秒训练列表页打开已有50条训练作业，单击训练模块后的时间。 6秒日志加载作业运行中，已经输出1兆的日志文本，单击训练详情页面需要多久加载出日志。 2.5秒训练详情页作业运行中，没有用户日志情况下，在ModelArts控制台主页面单击训练详情页面后加载页面内容。 2.5秒 JupyterLab页面进入JupyterLab页面后加载页面内容。 0.5秒 Notebook列表页已有50个Notebook实例，在ModelArts控制台主页面单击开发环境后的时间。 4.5秒镜像下载时间受节点规格、节点硬盘类型（高IO/普通IO）、是否SSD等因素影响，以上数据仅供参考。父主题：基于ModelArts Standard运行GPU训练作业

AI开发平台MODELARTS 基于ModelArts Standard运行GPU训练作业