检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。
本样例使用的数据集为类别数为五类的花卉识别数据集,下载数据集并解压数据到工程目录。新建dataset文件夹,将解压后数据集保存在dataset文件夹下。 图5 准备数据集 配置PyCharm解释器和入参。
多用于比较训练集和验证集的差异,如训练集都是长方形框的情况下,验证集如果是接近正方形的框会有比较大影响。
背景说明 针对ModelArts中的数据集,在创建数据集时,需指定“数据集输入位置”和“数据集输出位置”。两个参数填写的均是OBS路径。 “数据集输入位置”即原始数据存储的OBS路径。
前提条件 本地或对象存储服务(OBS)中已准备好待发布的数据集,或ModelArts的数据集列表存在待发布的数据集。 发布数据集 进入AI Gallery首页,选择“资产集市 > 数据集”,进入数据页面。
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。
ModelArts数据集中的标注信息和数据在发布后,将以manifest格式存储在“数据集输出位置”对应的OBS路径下。 路径获取方式: 在ModelArts管理控制台,进入“数据管理>数据集”。 选择需查看数据集,单击名称左侧小三角,展开数据集详情。
查询样本列表 查询数据集的样本列表,不支持表格类型数据集。
Manifest管理概述 在ModelArts使用过程中,需要做数据标注、模型训练、推理、数据集管理、市场发布等业务,这些业务都基于数据集进行的。为了规范对数据集的使用,适配各个使用场景,同时兼顾数据集管理的灵活性,本文档描述数据集管理的接口和描述规范——Manifest文件。
创建导出任务 将当前数据集的样本导出到指定的OBS路径下。仅支持图像分类、物体检测、图像分割和自由格式数据集。
发布数据集版本 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理> 数据集”,进入“数据集”管理页面 在数据集列表中,单击操作列的“发布”。或者,您可以单击数据集名称,进入数据集“概览”页,在页面右上角单击“发布”。
预训练任务 Step1 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。
LoRA微调训练 步骤1 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。
如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。
如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。
如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。
预训练任务 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。
如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。