检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
型场景中。存储容量推荐使用 6.0~10.8TB ,以存储更多模型文件。 图5 SFS类型和容量选择 CCE集群关联SFS Turbo 进入已购买创建的CCE集群,选择存储,随后单击“创建存储卷声明PVC”。 选择“极速文件存储”,随后输入PVC名称。 选择“新建存储卷PV”,并单击“选择极速文件存储”。
1卡Vnt1),存储方案使用“OBS的并行文件系统(存放数据和代码)”。 单机多卡:中等数据量(50G左右训练数据)、中等算力场景(8卡Vnt1),存储方案使用“SFS(存放数据和代码)”。 多机多卡:大数据量(1T训练数据)、高算力场景(4台8卡Vnt1),存储方案使用“SFS
object 训练作业状态信息。创建作业无需填写。 algorithm JobAlgorithmResponse object 训练作业算法。目前支持三种形式: id只取算法的id; subscription_id+item_version_id取算法的订阅id和版本id; code_dir
接域名地址。 代码来源 选择训练代码来源。 对象OBS存储:如果训练代码存放在OBS中,则选择“对象OBS存储”。 文件存储:如果训练代码存放在文件存储中,则选择“文件存储”。 代码目录 仅当“代码来源”选择“对象OBS存储”时才显示该参数。 必填,选择训练代码文件所在的OBS目录。
object 训练作业状态信息。创建作业无需填写。 algorithm JobAlgorithmResponse object 训练作业算法。目前支持三种形式: id只取算法的id; subscription_id+item_version_id取算法的订阅id和版本id; code_dir
适配的CANN版本是cann_8.0.rc2,驱动版本是23.0.5。 本文档适用于OBS+SFS Turbo的数据存储方案,不适用于仅使用OBS的存储方案。通过OBS对象存储服务(Object Storage Service)与SFS Turbo文件系统联动,可以实现数据灵活管理、高
“SFS(存放数据)+普通OBS桶(存放代码)”,采用分布式训练。 当使用SFS+OBS的存储方案可以实现存储加速,该方案的端到端实践案例请参见面向AI场景使用OBS+SFS Turbo的存储加速实践。 表1 不同场景所需服务及购买推荐 场景 OBS SFS SWR DEW ModelArts
本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 本文档适用于OBS+SFS Turbo的数据存储方案,不适用于仅使用OBS的存储方案。通过OBS对象存储服务(Object Storage Service)与SFS Turbo文件系统联动,可以实现数据灵活管理、高
Notebook实例状态只有处于“停止”、“运行中”和“启动失败”时,才能变更Notebook实例规格。 Notebook实例的存储配置采用的是云硬盘EVS。云硬盘EVS存储容量最大支持4096GB,达到4096GB时,不允许再扩容。单次最大可以扩容100GB。 Notebook实例停止后,
com/ma-group/pytorch_2_3_ascend:20240606 创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。 图2 训练作业启动命令 父主题:
本案例介绍了如何使用ModelArts Standard专属资源池提供的计算资源,结合SFS和OBS存储,在ModelArts Standard的训练环境中开展单机单卡、单机多卡、多机多卡分布式训练。 面向熟悉代码编写和调测的AI工程师,同时了解SFS和OBS云服务 从 0 制作自定义镜
FlavorInfoResponse 参数 参数类型 描述 max_num Integer 可以选择的最大节点数量(max_num,为1代表不支持分布式)。 cpu Cpu object cpu规格信息。 gpu Gpu object gpu规格信息。 npu Npu object Ascend规格信息。
HPC型文件系统为用户提供一个完全托管的共享文件存储。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象,用户可以指定SFS Turbo内的目录与OBS对象存储桶进行关联,然后通过创建导入导出任务实现数据同步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS
object 训练作业状态信息。创建作业无需填写。 algorithm JobAlgorithmResponse object 训练作业算法。目前支持三种形式: id:只取算法的id; subscription_id+item_version_id:取算法的订阅id和版本id; code_d
HPC型文件系统为用户提供一个完全托管的共享文件存储。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象,用户可以指定SFS Turbo内的目录与OBS对象存储桶进行关联,然后通过创建导入导出任务实现数据同步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS
object 训练作业状态信息。创建作业无需填写。 algorithm JobAlgorithmResponse object 训练作业算法。目前支持三种形式: id:只取算法的id; subscription_id+item_version_id:取算法的订阅id和版本id; code_d
开启“节点高级配置”开关后,支持设置实例的操作系统。 存储配置 部分规格支持“存储配置”开关,该参数默认关闭。 系统盘 打开“存储配置”开关后,可以看到每个实例默认自带的系统盘的磁盘类型、大小或数量。 部分规格没有携带系统盘,在创建专属资源池时支持设置系统盘的磁盘类型和大小。 容器盘 打开“存储配置”开关后,可以看
基于PyTorch上的第三方开发库非常多,例如transformers、accelerate、deepspeed以及Megatron-LM等,这些三方库昇腾也做了类似PyTorch Adapter的适配插件库。您可以在Gitee的昇腾官方仓库按需使用插件库。部分三方库例如最新版本de
的业务功能说明和并发机制。 - 是否有Linux内核驱动 是否有业务相关的Linux内核驱动代码。 - 依赖第三方组件列表 当前业务依赖的第三方软件列表(自行编译的第三方软件列表)。 例如:Faiss等。 - 推理框架 TensorRT/Triton/MSLite等。 例如: 2
参见以PyTorch框架创建训练作业。 训练作业进阶功能 ModelArts Standard还支持以下训练进阶功能,例如: 增量训练 分布式训练 训练加速 训练高可靠性 查看训练结果和日志 查看训练作业详情 训练作业运行中或运行结束后,可以在训练作业详情页面查看训练作业的参数设置,训练作业事件等。