检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
管理标注数据 同步新数据 ModelArts会自动将数据集中新增的数据同步至标注作业,包含数据及当前标注作业支持的标注信息。 为了快速获取数据集中最新数据,可在标注作业详情页的“全部”、“未标注”或“已标注”页签中,单击“同步新数据”,快速将数据集中的数据添加到标注作业中。 问题现象:
只有发布后的数据集支持数据特征分析。发布后的Default格式数据集版本支持数据特征分析。 数据特征分析的数据范围,不同类型的数据集,选取范围不同: 对于标注任务类型为“物体检测”的数据集版本,当已标注样本数为0时,发布版本后,数据特征页签版本置灰不可选,无法显示数据特征。否则,显示已标注的图片的数据特征。
图1 导出新数据集 数据导出成功后,您可以前往您设置的保存路径,查看到存储的数据。当导出方式选择为新数据集时,在导出成功后,您可以前往“数据集”列表中,查看到新的数据集。 在“数据集概览页”,单击右上角“导出历史”,在弹出的“任务历史”对话框中,可以查看该数据集之前的导出任务历史。
发布ModelArts数据集中的数据版本 ModelArts在数据准备过程中,针对同一数据源的数据,对不同时间处理或标注后的数据,按照版本进行区分方便后续模型构建和开发时选择对应的数据集版本进行使用。 关于数据集版本 针对刚创建的数据集(未发布前),无数据集版本信息,必须执行发布操作后,才能应用于模型开发或训练。
处理ModelArts数据集中的数据 数据处理场景介绍 创建ModelArts数据校验任务 创建ModelArts数据清洗任务 创建ModelArts数据选择任务 创建ModelArts数据增强任务 管理和查看数据处理任务 父主题: 数据准备与处理
准备数据 数据集版本发布失败 数据集版本不合格 父主题: 自动学习
数据存储 如何对OBS的文件重命名? Notebook停止或者重启后,“/cache”下的文件还存在么?如何避免重启? 如何使用pandas库处理OBS桶中的数据? 在Notebook中,如何访问其他账号的OBS桶? JupyterLab默认工作路径是什么? 父主题: Standard
1:置信度偏低。 2:基于训练数据集的聚类结果和预测结果不一致。 3:预测结果和训练集同类别数据差异较大。 4:连续多张相似图片的预测结果不一致。 5:图像的分辨率与训练数据集的特征分布存在较大偏移。 6:图像的高宽比与训练数据集的特征分布存在较大偏移。 7:图像的亮度与训练数据集的特征分布存在较大偏移。
ModelArts数据管理支持哪些格式? 不同类型的数据集支持不同的功能。 数据集类型 标注类型 创建数据集 导入数据 导出数据 发布数据集 修改数据集 管理版本 自动分组 数据特征 文件型 图像分类 支持 支持 支持 支持 支持 支持 支持 支持 物体检测 支持 支持 支持 支持
导出ModelArts数据集中的数据到OBS 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,当需要将数据集中的数据存储至OBS用于后续导出使用时,可通过此种方式导出成新的数据集。用户可以通过任务历史查看数据导出的历史记录。 目前只有“图像分类”、“物体检测
如“按标签导入”:系统将自动获取此数据集的标签,您可以单击“添加标签”添加相应的标签。此字段为可选字段,您也可以在导入数据集后,在标注数据操作时,添加或删除标签。 图1 导入数据集-OBS 导入成功后,数据将自动同步到数据集中。您可以在“数据集”页面,单击数据集的名称,查看详细数据,并可以通过创建标注任务进行数据标注。
准备数据 自动学习的每个项目对数据有哪些要求? 创建预测分析自动学习项目时,对训练数据有什么要求? 使用从OBS选择的数据创建表格数据集如何处理Schema信息? 物体检测或图像分类项目支持对哪些格式的图片进行标注和训练? 父主题: Standard自动学习
导入数据到ModelArts数据集 数据导入方式介绍 从OBS导入数据到ModelArts数据集 从DWS导入数据到ModelArts数据集 从DLI导入数据到ModelArts数据集 从MRS导入数据到ModelArts数据集 从本地上传数据到ModelArts数据集 父主题:
图1 导入manifest文件 导入成功后,数据将自动同步到数据集中。您可以在“数据集”页面,单击数据集的名称,查看详细数据,并可以通过创建标注任务进行数据标注。 文件型数据标注状态 数据标注状态分为“未标注”和“已标注”。 未标注:仅导入标注对象(指待标注的图片,文本等),不导入标注内容(指标注结果信息)。
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
标注ModelArts数据集中的数据 数据标注场景介绍 通过人工标注方式标注数据 通过智能标注方式标注数据 通过团队标注方式标注数据 管理标注作业 父主题: 数据准备与处理
否 Boolean 是否导入数据,此参数当前仅表格数据集使用。可选值如下: true:创建数据集时导入数据 false:创建数据集时不导入数据(默认值) label_format 否 LabelFormat object 标签格式信息,此参数仅文本类数据集使用。 labels 否 Array
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前指令微调数据集支持alpaca格式和sharegpt格式的数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
从DWS导入数据 集群名称:系统自动将当前账号下的DWS集群展现在列表中,您可以在下拉框中选择您所需的DWS集群。 数据库名称:根据选择的DWS集群,填写数据所在的数据库名称。 表名称:根据选择的数据库,填写数据所在的表。 用户名:输入DWS集群管理员用户的用户名。 密码:输入DWS集群管理员用户的密码。
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info