检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如“按标签导入”:系统将自动获取此数据集的标签,您可以单击“添加标签”添加相应的标签。此字段为可选字段,您也可以在导入数据集后,在标注数据操作时,添加或删除标签。 图1 导入数据集-OBS 导入成功后,数据将自动同步到数据集中。您可以在“数据集”页面,单击数据集的名称,查看详细数据,并可以通过创建标注任务进行数据标注。
导出ModelArts数据集中的数据到OBS 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,当需要将数据集中的数据存储至OBS用于后续导出使用时,可通过此种方式导出成新的数据集。用户可以通过任务历史查看数据导出的历史记录。 目前只有“图像分类”、“物体检测
只有发布后的数据集支持数据特征分析。发布后的Default格式数据集版本支持数据特征分析。 数据特征分析的数据范围,不同类型的数据集,选取范围不同: 对于标注任务类型为“物体检测”的数据集版本,当已标注样本数为0时,发布版本后,数据特征页签版本置灰不可选,无法显示数据特征。否则,显示已标注的图片的数据特征。
从DLI导入数据到ModelArts数据集 表格数据集支持从DLI导入数据。 从DLI导入数据,用户需要选择DLI队列、数据库和表名称。所选择的表的schema(列名和类型)需与数据集一致,支持自动获取所选择表的schema。DLI的详细功能说明,请参考DLI用户指南。 图1 DLI导入数据
从DWS导入数据 集群名称:系统自动将当前账号下的DWS集群展现在列表中,您可以在下拉框中选择您所需的DWS集群。 数据库名称:根据选择的DWS集群,填写数据所在的数据库名称。 表名称:根据选择的数据库,填写数据所在的表。 用户名:输入DWS集群管理员用户的用户名。 密码:输入DWS集群管理员用户的密码。
标注ModelArts数据集中的数据 数据标注场景介绍 通过人工标注方式标注数据 通过智能标注方式标注数据 通过团队标注方式标注数据 管理标注作业 父主题: 数据准备与处理
ModelArts为用户提供了标注数据的能力: 人工标注:用户创建单人标注作业,对数据进行手工标注。 智能标注:在标注一定量的数据情况下,用户可以通过启动智能标注任务对数据进行自动标注,提高标注的效率。 团队标注:对于大批量的数据,用户可以通过创建团队标注作业,进行多人协同标注。 人工标注 对
图1 导入manifest文件 导入成功后,数据将自动同步到数据集中。您可以在“数据集”页面,单击数据集的名称,查看详细数据,并可以通过创建标注任务进行数据标注。 文件型数据标注状态 数据标注状态分为“未标注”和“已标注”。 未标注:仅导入标注对象(指待标注的图片,文本等),不导入标注内容(指标注结果信息)。
从MRS导入数据到ModelArts数据集 ModelArts支持从MRS服务中导入存储在HDFS上的csv格式的数据,首先需要选择已有的MRS集群,并从HDFS文件列表选择文件名称或所在目录,导入文件的列数需与数据集schema一致。MRS的详细功能说明,请参考MRS用户指南。
否 Boolean 是否导入数据,此参数当前仅表格数据集使用。可选值如下: true:创建数据集时导入数据 false:创建数据集时不导入数据(默认值) label_format 否 LabelFormat object 标签格式信息,此参数仅文本类数据集使用。 labels 否 Array
数据集中的数据导入有5个入口。 创建数据集时直接从设置的数据导入路径中自动同步数据。 创建完数据集后,在数据集列表页面的操作栏单击“导入”,导入数据。 图1 在数据集列表页导入数据 在数据集列表页面,单击某个数据集的名称,进入数据集详情页中,单击“导入>导入”,导入数据。 图2 在数据集详情页中导入数据
>数据集”,进入“数据集”管理页面。 在数据集所在行,单击操作列的“导入”。 或者,您可以单击数据集名称,进入数据集“概览”页,在页面右上角单击“导入”。 在“导入”对话框中,参考如下说明填写参数,然后单击“确定”。 “数据来源”:“本地上传” “上传数据存储路径”:数据存储的OBS路径。 “上传
数据保护技术 ModelArts通过多种数据保护手段和特性,保障存储在ModelArts中的数据安全可靠。 数据保护手段 说明 静态数据保护 对于AI Gallery收集的用户个人信息中的敏感信息,如用户邮箱和手机号,AI Gallery在数据库中做了加密处理。其中,加密算法采用了国际通用的AES算法。
后就可以将.xlsx格式数据集转换为.csv格式。 表格数据集对训练数据的要求: 训练数据列数一致,总数据量不少于100条不同数据(有一个特征取值不同,即视为不同数据)。 训练数据列内容不能有时间戳格式(如:yy-mm-dd、yyyy-mm-dd等)的数据。 如果某一列的取值只有
支持 可以导入未标注或已标注数据 已标注数据格式规范:图像分类 物体检测 支持 可以导入未标注或已标注数据 已标注数据格式规范:物体检测 支持 可以导入未标注或已标注数据 已标注数据格式规范:物体检测 图像分割 支持 可以导入未标注或已标注数据 已标注数据格式规范:图像分割 支持 可以导入未标注或已标注数据
更新数据集 更新数据集的名称和描述信息。 dataset.update_dataset(dataset_name=None, description=None) 示例代码 更新数据集名称 from modelarts.session import Session from modelarts
MA_AUDIO_CLASSIFICATION_DIR_V1 使用案例 主要包含两种场景的用例。 基于未标注数据创建数据集 基于已标注的数据创建数据集,并自动导入标注信息 基于未标注数据创建数据集 数据准备:存储在OBS文件夹中的未标注的数据。 from modelarts import workflow as wf
从OBS导入数据到ModelArts数据集 从OBS导入数据到数据集场景介绍 从OBS目录导入数据到数据集 从Manifest文件导入数据到数据集 从OBS目录导入数据规范说明 从Manifest文件导入规范说明 父主题: 导入数据到ModelArts数据集
ts数据集。 提供多种数据接入方式,支持用户从OBS,MRS,DLI以及DWS等服务导入用户的数据。 提供18+数据增强算子,帮助用户扩增数据,增加训练用的数据量。 帮助用户提高数据的质量。 提供图像、文本、音频、视频等多种格式数据的预览,帮助用户识别数据质量。 提供对数据进行多
创建数据集时,此OBS路径下的数据会导入数据集,后续如果直接在OBS中修改数据,会造成数据集的数据与OBS的数据不一致,可能导致部分数据不可用。如果需要在数据集中修改数据,建议使用同步数据源或4章节从OBS目录导入数据到数据集功能。 超出数据集的样本和标签配额,会导致数据无法正常导入。