检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
AscendCloud-6.3.907-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明
单击配额信息右侧的“修改配额”可以修改配额值。配置值的配置说明请参见表2。 表2 配额信息 配额名称 配额值说明 单位 自动学习(预测分析)训练时长 默认无限制,支持设置1~60000。 分钟 自动学习(图像分类、物体检测、声音分类)训练时长 默认无限制,支持设置1~60000。 分钟 训练作业GPU规
"used_quota" : 5, "quota" : 10, "min_quota" : -1, "name_cn" : "自动学习(图像分类、物体检测、声音分类)训练时长", "unit_cn" : "分钟", "name_en" : "ExeMLtraining
context-parallel-size 。 (此参数目前仅适用于Llama3系列模型长序列训练) LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。
本文旨在指导如何在GPU裸金属服务器上,安装NVIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同,您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件安装步骤,您可针对需要安装的软件查看对应的内容: 安装NVIDIA驱动 安装CUDA驱动
gpu_duration", "quota" : 20, "min_quota" : -1, "name_cn" : "自动学习(图像分类、物体检测、声音分类)训练时长", "unit_cn" : "分钟", "name_en" : "ExeML training
示例:创建DDP分布式训练(PyTorch+NPU):针对Resnet18在cifar10数据集上的分类任务,给出了分布式训练改造(DDP)的完整代码示例,供用户学习参考。 基于开发环境使用SDK调测训练作业:介绍如何在ModelArts的开发环境中,使用SDK调测单机和多机分布式训练作业。 父主题: 分布式模型训练
ModelArts与OBS交互示意 表1 ModelArts各模块与OBS的关系 功能 子任务 ModelArts与OBS的关系 Standard自动学习Standard Workflow 数据标注 ModelArts标注的数据存储在OBS中。 自动训练 训练作业结束后,其生成的模型存储在OBS中。
model_path) 初始化方法,适用于深度学习框架模型。该方法内加载模型及标签等(pytorch和caffe类型模型必须重写,实现模型加载逻辑)。 __init__(self, model_path) 初始化方法,适用于机器学习框架模型。该方法内初始化模型的路径(self.
在MaaS中创建模型 在ModelArts Studio大模型即服务平台使用基础模型创建个人专属模型。 场景描述 MaaS提供了基于昇腾云算力适配的开源大模型,您可以使用这些基础模型,结合推荐的模型权重文件或自定义的模型权重文件,创建个人专属的模型。 创建成功的模型可以在ModelArts
context-parallel-size 。 (此参数目前仅适用于Llama3系列模型长序列训练) lr 2.5e-5 学习率设置。 min-lr 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。
ModelArts提供灵活开放的开发环境,您可以根据实际情况选择。 ModelArts提供了CodeLab功能,一方面,一键进入开发环境,同时预置了免费的算力规格,可直接免费体验Notebook功能;另一方面,针对AI Gallery社区发布的Notebook样例(.ipynb格式文件),可直接
包括迁移原理、迁移流程以及迁移后的精度调试及性能调优方法介绍。此外,ModelArts提供了即开即用的云上集成开发环境,包含迁移所需要的算力资源、AI框架、昇腾开发套件以及迁移调优工具链,最大程度减少客户自行配置环境的复杂度。 范围 本文涉及PyTorch训练的单卡和分布式业务
单机单卡:小数据量(1G训练数据)、低算力场景(1卡Vnt1),存储方案推荐使用“OBS的并行文件系统(存放数据和代码)”。 单机多卡:中等数据量(50G左右训练数据)、中等算力场景(8卡Vnt1),存储方案推荐使用“SFS(存放数据和代码)”。 多机多卡:大数据量(1T训练数据)、高算力场景(4台8卡
创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图1 开启故障重启 断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中
取值范围:1~100000 学习率/learning_rate 设置每个迭代步数(iteration)模型参数/权重更新的速率。学习率设置得过高会导致模型难以收敛,过低则会导致模型收敛速度过慢。 取值范围:0~0.1 默认值:0.00002 建议微调场景的学习率设置在10-5这个量级。
UTC'的毫秒数。 description String 模型描述信息。 source_type String 模型来源的类型,仅当模型为自动学习部署过来时有值,取值为auto。 父主题: 模型管理
除了人工标注外,ModelArts还提供了智能标注功能,快速完成数据标注,为您节省70%以上的标注时间。智能标注是指基于当前标注阶段的标签及图片学习训练,选中系统中已有的模型进行智能标注,快速完成剩余图片的标注操作。 目前只有“图像分类”和“物体检测”类型的数据集支持智能标注功能。 团队标注
单机单卡:小数据量(1G训练数据)、低算力场景(1卡Vnt1),存储方案使用“OBS的并行文件系统(存放数据和代码)”。 单机多卡:中等数据量(50G左右训练数据)、中等算力场景(8卡Vnt1),存储方案使用“SFS(存放数据和代码)”。 多机多卡:大数据量(1T训练数据)、高算力场景(4台8卡Vn
多信息请参见《对象存储服务产品文档》。 表1 ModelArts各环节与OBS的关系 功能 子任务 ModelArts与OBS的关系 自动学习 数据标注 ModelArts标注的数据存储在OBS中。 自动训练 训练作业结束后,其生成的模型存储在OBS中。 部署上线 ModelAr