检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
infiniband驱动的安装 infiniband驱动的安装 如果安装了libibverbs-dev库后仍然无法使能infiniband网卡,您可以直接安装infiniband官方驱动,以使用infiniband网卡进行分布式通信,提升训练性能。infiniband驱动需要在制作镜像时安装
CUDA和CUDNN Vnt1机型软件版本建议:gpu driver version : 440.95.01 gpu driver version : 440.95.01(GPU驱动在宿主机中安装,镜像中无需安装) cuda runtime version : 10.2(PyTorch
父主题: 历史待下线案例
单机多卡 准备镜像 上传数据和算法至SFS(首次使用时需要) 使用Notebook进行代码调试 创建训练任务 父主题: 调试与训练
ModelArts环境挂载目录说明 本小节介绍Notebook开发环境、训练任务实例的目录挂载情况(以下挂载点在保存镜像的时候不会保存)。详情如下: Notebook 表1 Notebook挂载点介绍 挂载点 是否只读 备注 /home/ma-user/work/ 否 客户数据的持久化目录
父主题: 历史待下线案例
obsutil安装和配置 obsutil是用于访问、管理对象存储服务OBS的命令行工具,使用该工具可以对OBS进行常用的配置管理操作,如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。 obsutil安装和配置的具体操作指导请参见obsutils快速入门。 操作命令中的
多机多卡 线下容器镜像构建及调试 上传数据至OBS(首次使用时需要) 上传算法至SFS 创建训练任务 父主题: 调试与训练
配置ModelArts委托权限 给用户配置ModelArts委托授权,允许ModelArts服务在运行时访问OBS等依赖服务。 使用华为云账号登录ModelArts管理控制台,在左侧导航栏单击“权限管理”,进入“权限管理”页面,单击“添加授权”。 在弹出的“添加授权”窗口中,选择:
准备镜像 构建容器镜像并调试 镜像构建及调试与单机单卡相同。 具体操作,请参考线下容器镜像构建及调试。 上传镜像 请参考单机单卡训练的上传镜像章节操作。 父主题: 单机多卡
创建VPC 虚拟私有云(Virtual Private Cloud)可以为您构建隔离的、用户自主配置和管理的虚拟网络环境,操作指导请参考创建虚拟私有云和子网。 创建SFS Turbo SFS Turbo HPC型文件系统为用户提供一个完全托管的共享文件存储。
配置SWR组织权限 IAM用户创建后,需要管理员在组织中为用户添加授权,使IAM用户对组织内所有镜像享有读取/编辑/管理的权限。 只有具备“管理”权限的账号和IAM用户才能添加授权。 登录容器镜像服务控制台。 在左侧菜单栏选择“组织管理”,单击组织名称。 在“用户”页签下单击“添加授权
创建训练任务 针对专属池场景,应注意挂载的目录设置和调试时一致。 登录ModelArts管理控制台,检查当前账号是否已完成访问授权的配置。如果未完成,请参考使用委托授权。针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。 在左侧导航栏中选择“模型训练 > 训练作业
创建训练任务 登录ModelArts管理控制台,检查当前账号是否已完成访问授权的配置。如果未完成,请参考使用委托授权针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。 在左侧导航栏中选择“模型训练 > 训练作业”,默认进入“训练作业”列表。单击“创建训练作业”进入创建训练作业页面
run.sh脚本测试ModelArts训练整体流程 自定义容器在ModelArts上训练和本地训练的区别如下图: 图1 本地与ModelArts上训练对比 ModelArts上进行训练比本地训练多了一步OBS和容器环境的数据迁移工作。 增加了和OBS交互工作的整个训练流程如下: 建议使用
创建VPC 虚拟私有云(Virtual Private Cloud)可以为您构建隔离的、用户自主配置和管理的虚拟网络环境,操作指导请参考创建虚拟私有云和子网。 创建SFS Turbo SFS Turbo HPC型文件系统为用户提供一个完全托管的共享文件存储。
创建VPC 虚拟私有云(Virtual Private Cloud)可以为您构建隔离的、用户自主配置和管理的虚拟网络环境,操作指导请参考创建虚拟私有云和子网。 创建SFS Turbo SFS Turbo HPC型文件系统为用户提供一个完全托管的共享文件存储。
父主题: 历史待下线案例
父主题: 历史待下线案例
创建训练任务 调试代码 创建训练任务之前,建议先调试代码。 由于Notebook的/cache目录只能支持500G的存储,超过后会导致实例重启,ImageNet数据集大小超过该限制,因此建议用线下资源调试、或用小批量数据集在Notebook调试(Notebook调试方法与使用Notebook