检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本地上传。 数据集中的数据导入入口 数据集中的数据导入有5个入口。 创建数据集时直接从设置的数据导入路径中自动同步数据。 创建完数据集后,在数据集列表页面的操作栏单击“导入”,导入数据。 图1 在数据集列表页导入数据 在数据集列表页面,单击某个数据集的名称,进入数据集详情页中,单击“导入>导入”,导入数据。
数据准备与处理 数据准备使用流程 创建ModelArts数据集 导入数据到ModelArts数据集 处理ModelArts数据集中的数据 标注ModelArts数据集中的数据 发布ModelArts数据集中的数据版本 分析ModelArts数据集中的数据特征 导出ModelArts数据集中的数据
String 导出数据集版本的格式。 export_dataset_version_name 否 String 导出数据集版本的名称。 export_dest 否 String 数据集导出类型。可选值如下: DIR:导出到OBS(默认值) NEW_DATASET:导出到新数据集 exp
处理ModelArts数据集中的数据 数据处理场景介绍 创建ModelArts数据校验任务 创建ModelArts数据清洗任务 创建ModelArts数据选择任务 创建ModelArts数据增强任务 管理和查看数据处理任务 父主题: 数据准备与处理
导入数据到ModelArts数据集 数据导入方式介绍 从OBS导入数据到ModelArts数据集 从DWS导入数据到ModelArts数据集 从DLI导入数据到ModelArts数据集 从MRS导入数据到ModelArts数据集 从本地上传数据到ModelArts数据集 父主题:
发布时是否导出图片到版本输出目录。可选值如下: true:导出图片到版本输出目录 false:不导出图片到版本输出目录(默认值) remove_sample_usage 否 Boolean 发布时是否清除数据集已有的usage信息。可选值如下: true:发布时清除数据集已有的usage信息(默认值)
data_sources 是 表2 数据集输入位置,用于将此目录及子目录下的源数据(如图片/文件/音频等)同步到数据集。对于表格数据集,该参数为导入目录。表格数据集的工作目录不支持为KMS加密桶下的OBS路径。 work_path 是 表6 数据集输出位置,用于存放输出的标注信息等文件。 labels
域。 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。 创建数据集 数据准备完成后,需
只有发布后的数据集支持数据特征分析。发布后的Default格式数据集版本支持数据特征分析。 数据特征分析的数据范围,不同类型的数据集,选取范围不同: 对于标注任务类型为“物体检测”的数据集版本,当已标注样本数为0时,发布版本后,数据特征页签版本置灰不可选,无法显示数据特征。否则,显示已标注的图片的数据特征。
标注ModelArts数据集中的数据 数据标注场景介绍 通过人工标注方式标注数据 通过智能标注方式标注数据 通过团队标注方式标注数据 管理标注作业 父主题: 数据准备与处理
步到数据集。对于表格数据集,该参数为导入目录。表格数据集的工作目录不支持为KMS加密桶下的OBS路径。目前仅支持传入单个DataSource。 dataset_name 是 String 数据集名称。 dataset_type 否 Integer 数据集类型。可选值如下: 0:图像分类
从DLI导入数据到ModelArts数据集 表格数据集支持从DLI导入数据。 从DLI导入数据,用户需要选择DLI队列、数据库和表名称。所选择的表的schema(列名和类型)需与数据集一致,支持自动获取所选择表的schema。DLI的详细功能说明,请参考DLI用户指南。 图1 DLI导入数据
从DWS导入数据 集群名称:系统自动将当前账号下的DWS集群展现在列表中,您可以在下拉框中选择您所需的DWS集群。 数据库名称:根据选择的DWS集群,填写数据所在的数据库名称。 表名称:根据选择的数据库,填写数据所在的表。 用户名:输入DWS集群管理员用户的用户名。 密码:输入DWS集群管理员用户的密码。
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新dataset_info.json文件;请务必在dataset_info
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
图1 导入manifest文件 导入成功后,数据将自动同步到数据集中。您可以在“数据集”页面,单击数据集的名称,查看详细数据,并可以通过创建标注任务进行数据标注。 文件型数据标注状态 数据标注状态分为“未标注”和“已标注”。 未标注:仅导入标注对象(指待标注的图片,文本等),不导入标注内容(指标注结果信息)。
创建ModelArts数据校验任务 前提条件 数据已准备完成:已经创建数据集或者已经将数据上传至OBS。 确保您使用的OBS与ModelArts在同一区域。 创建数据处理任务 登录ModelArts管理控制台,在左侧的导航栏中选择“数据准备>数据处理”,进入“数据处理”页面。 在“数据处理”页
数据管理计费项 计费说明 在ModelArts数据管理模块,提供的数据集、数据标注、数据处理功能都不收费。具体如下: 数据集:在ModelArts数据管理中创建数据集时,不收费。 数据标注:在ModelArts数据管理中进行手动标注和智能标注时,不收费。 数据处理:在ModelA
创建ModelArts数据选择任务 前提条件 数据已准备完成:已经创建数据集或者已经将数据上传至OBS。 确保您使用的OBS与ModelArts在同一区域。 创建数据处理任务 登录ModelArts管理控制台,在左侧的导航栏中选择“数据准备 > 数据处理”,进入“数据处理”页面。 在“数据处理”