检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练数据: 训练数据列数一致,总数据量不少于100条不同数据(有一个特征取值不同,即视为不同数据)。 训练数据列内容不能有时间戳格式(如:yy-mm-dd、yyyy-mm-dd等)的数据。 如果某一列的取值只有一种,会被视为无效列。请确保标签列的取值至少有两个且无数据缺失。
下载数据 在AI Gallery中,您可以下载满足业务需要的数据集。 前提条件 注册并登录华为云,且创建好OBS桶用于存储数据。 下载数据集 登录“AI Gallery”。 选择“资产集市 > 数据集”,进入数据页面,该页面展示了所有共享的数据集。 搜索业务所需的数据集,请参见查找和收藏资产。
声音分类是对声音进行分类。语音内容是对语音内容进行标注。语音分割是对语音进行分段标注。 开始标注 登录ModelArts管理控制台,在左侧菜单栏中选择“数据准备> 数据标注”,进入“数据标注”管理页面。 数据管理模块在重构升级中,对未使用过数据管理的用户不可见。如果要使用数据管理相关功能,建议提交工单开通权限。
导出ModelArts数据集中的数据到AI Gallery 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,导出到AI Gallery。用户可以通过任务历史查看数据导出的历史记录。发布到AI Gallery中的数据集,可以设置是否公开,将数据集公开给其他人使用。
导出ModelArts数据集中的数据为新数据集 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,导出成新的数据集。用户可以通过任务历史查看数据导出的历史记录。本章主要介绍将ModelArts数据集中的数据为新数据集的方式,新导出的数据集可直接在ModelArts控制台数据集列表中显示。
准备数据 自动学习的每个项目对数据有哪些要求? 创建预测分析自动学习项目时,对训练数据有什么要求? 使用从OBS选择的数据创建表格数据集如何处理Schema信息? 物体检测或图像分类项目支持对哪些格式的图片进行标注和训练? 父主题: Standard自动学习
数据存储 如何对OBS的文件重命名? Notebook停止或者重启后,“/cache”下的文件还存在么?如何避免重启? 如何使用pandas库处理OBS桶中的数据? 在Notebook中,如何访问其他账号的OBS桶? JupyterLab默认工作路径是什么? 父主题: Standard
该节点通过对算法、输入、输出的定义,实现ModelArts作业管理的能力。主要用于数据处理、模型训练、模型评估等场景。主要应用场景如下: 当需要对图像进行增强,对语音进行除噪等操作时,可以使用该节点进行数据的预处理。 对于一些物体检测,图像分类等AI应用场景,可以根据已有的数据使用该节点进行模型的训练。
创建数据集时,此OBS路径下的数据会导入数据集,后续如果直接在OBS中修改数据,会造成数据集的数据与OBS的数据不一致,可能导致部分数据不可用。如果需要在数据集中修改数据,建议使用同步数据源或4章节从OBS目录导入数据到数据集功能。 超出数据集的样本和标签配额,会导致数据无法正常导入。
版本,如果输出值为2,则为V2版本。 V1版本修改:file_io._NUMBER_OF_PROCESSES=1 V2版本修改:可以 file_io._LARGE_FILE_METHOD = 1,将模式设置成V1然后用V1的方式修改规避,也可以直接file_io._LARGE_FILE_TASK_NUM=1。
登录ModelArts管理控制台,在左侧的导航栏中选择“数据准备>数据处理”,进入“数据处理”页面。 在数据处理列表中,单击数据处理任务名称,进入数据处理任务的版本管理页面。您可以在该页面进行数据处理任务的“修改”与“删除”。 图1 数据处理版本管理页面 您可以在版本管理页面,通过切换页签查看“配置信息”、“日志”和“结果展示”。
如“按标签导入”:系统将自动获取此数据集的标签,您可以单击“添加标签”添加相应的标签。此字段为可选字段,您也可以在导入数据集后,在标注数据操作时,添加或删除标签。 图1 导入数据集-OBS 导入成功后,数据将自动同步到数据集中。您可以在“数据集”页面,单击数据集的名称,查看详细数据,并可以通过创建标注任务进行数据标注。
数据集”下,选择未发布的数据集,单击数据集名称,进入数据集详情页。 在数据集详情页,单击右侧“发布”,在发布数据集页面编辑发布信息后,单击“发布”。 表1 发布数据集的参数说明 参数名称 说明 中文名称 数据集发布后显示的名称,在创建数据集时设置的名称,此处不可编辑。 任务类型 选择合适的任务类型。 许可证
准备数据 数据集版本发布失败 数据集版本不合格 父主题: 自动学习
数据集版本管理找不到新建的版本 如何查看数据集大小 如何查看新版数据集的标注详情 标注数据如何导出 找不到新创建的数据集 数据集配额不正确 数据集如何切分 如何删除数据集图片 从AI Gallery下载到桶里的数据集,再在ModelArts里创建数据集,显示样本数为0
ModelArts数据管理支持哪些格式? 不同类型的数据集支持不同的功能。 数据集类型 标注类型 创建数据集 导入数据 导出数据 发布数据集 修改数据集 管理版本 自动分组 数据特征 文件型 图像分类 支持 支持 支持 支持 支持 支持 支持 支持 物体检测 支持 支持 支持 支持
后就可以将.xlsx格式数据集转换为.csv格式。 表格数据集对训练数据的要求: 训练数据列数一致,总数据量不少于100条不同数据(有一个特征取值不同,即视为不同数据)。 训练数据列内容不能有时间戳格式(如:yy-mm-dd、yyyy-mm-dd等)的数据。 如果某一列的取值只有
remove_sample_usage Boolean 发布时是否清除数据集已有的usage信息。可选值如下: true:清除数据集已有的usage信息(默认值) false:不清除数据集已有的usage信息 rotate Boolean 是否对图片进行旋转。可选值如下: true:对图片进行旋转 false:不对图片进行旋转(默认值)
导入数据到ModelArts数据集 数据导入方式介绍 从OBS导入数据到ModelArts数据集 从DWS导入数据到ModelArts数据集 从DLI导入数据到ModelArts数据集 从MRS导入数据到ModelArts数据集 从本地上传数据到ModelArts数据集 父主题:
导出ModelArts数据集中的数据 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,导出成新的数据集。用户可以通过任务历史查看数据导出的历史记录。 目前只有“图像分类”、“物体检测”、“图像分割”类型的数据集支持导出功能。 “图像分类”只支持导出txt格式的标注文件。