检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前指令微调数据集支持alpaca格式和sharegpt格式的数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
导出ModelArts数据集中的数据为新数据集 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,导出成新的数据集。用户可以通过任务历史查看数据导出的历史记录。本章主要介绍将ModelArts数据集中的数据为新数据集的方式,新导出的数据集可直接在ModelArts控制台数据集列表中显示。
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
下载数据 在AI Gallery中,您可以下载满足业务需要的数据集。 前提条件 注册并登录华为云,且创建好OBS桶用于存储数据。 下载数据集 登录“AI Gallery”。 选择“资产集市 > 数据集”,进入数据页面,该页面展示了所有共享的数据集。 搜索业务所需的数据集,请参见查找和收藏资产。
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新dataset_info.json文件;请务必在dataset_info
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
导出ModelArts数据集中的数据到AI Gallery 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,导出到AI Gallery。用户可以通过任务历史查看数据导出的历史记录。发布到AI Gallery中的数据集,可以设置是否公开,将数据集公开给其他人使用。
准备数据 数据集版本发布失败 数据集版本不合格 父主题: 自动学习
发布ModelArts数据集中的数据版本 ModelArts在数据准备过程中,针对同一数据源的数据,对不同时间处理或标注后的数据,按照版本进行区分方便后续模型构建和开发时选择对应的数据集版本进行使用。 关于数据集版本 针对刚创建的数据集(未发布前),无数据集版本信息,必须执行发布操作后,才能应用于模型开发或训练。
导入数据到ModelArts数据集 数据导入方式介绍 从OBS导入数据到ModelArts数据集 从DWS导入数据到ModelArts数据集 从DLI导入数据到ModelArts数据集 从MRS导入数据到ModelArts数据集 从本地上传数据到ModelArts数据集 父主题:
data_sources 是 表2 数据集输入位置,用于将此目录及子目录下的源数据(如图片/文件/音频等)同步到数据集。对于表格数据集,该参数为导入目录。表格数据集的工作目录不支持为KMS加密桶下的OBS路径。 work_path 是 表6 数据集输出位置,用于存放输出的标注信息等文件。
如“按标签导入”:系统将自动获取此数据集的标签,您可以单击“添加标签”添加相应的标签。此字段为可选字段,您也可以在导入数据集后,在标注数据操作时,添加或删除标签。 图1 导入数据集-OBS 导入成功后,数据将自动同步到数据集中。您可以在“数据集”页面,单击数据集的名称,查看详细数据,并可以通过创建标注任务进行数据标注。
导出ModelArts数据集中的数据 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,导出成新的数据集。用户可以通过任务历史查看数据导出的历史记录。 目前只有“图像分类”、“物体检测”、“图像分割”类型的数据集支持导出功能。 “图像分类”只支持导出txt格式的标注文件。
处理ModelArts数据集中的数据 数据处理场景介绍 创建ModelArts数据校验任务 创建ModelArts数据清洗任务 创建ModelArts数据选择任务 创建ModelArts数据增强任务 管理和查看数据处理任务 父主题: 数据准备与处理
只有发布后的数据集支持数据特征分析。发布后的Default格式数据集版本支持数据特征分析。 数据特征分析的数据范围,不同类型的数据集,选取范围不同: 对于标注任务类型为“物体检测”的数据集版本,当已标注样本数为0时,发布版本后,数据特征页签版本置灰不可选,无法显示数据特征。否则,显示已标注的图片的数据特征。
导出ModelArts数据集中的数据到OBS 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,当需要将数据集中的数据存储至OBS用于后续导出使用时,可通过此种方式导出成新的数据集。用户可以通过任务历史查看数据导出的历史记录。 目前只有“图像分类”、“物体检测
从DLI导入数据到ModelArts数据集 表格数据集支持从DLI导入数据。 从DLI导入数据,用户需要选择DLI队列、数据库和表名称。所选择的表的schema(列名和类型)需与数据集一致,支持自动获取所选择表的schema。DLI的详细功能说明,请参考DLI用户指南。 图1 DLI导入数据
从DWS导入数据 集群名称:系统自动将当前账号下的DWS集群展现在列表中,您可以在下拉框中选择您所需的DWS集群。 数据库名称:根据选择的DWS集群,填写数据所在的数据库名称。 表名称:根据选择的数据库,填写数据所在的表。 用户名:输入DWS集群管理员用户的用户名。 密码:输入DWS集群管理员用户的密码。