检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
从DLI导入数据到ModelArts数据集 表格数据集支持从DLI导入数据。 从DLI导入数据,用户需要选择DLI队列、数据库和表名称。所选择的表的schema(列名和类型)需与数据集一致,支持自动获取所选择表的schema。DLI的详细功能说明,请参考DLI用户指南。 图1 DLI导入数据
不超过5GB。 不同类型的数据集,导入操作界面的示意图存在区别,请参考界面信息了解当前类型数据集的示意图。当前操作指导以图像分类的数据集为例。 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理 >数据集”,进入“数据集”管理页面。 在数据集所在行,单击操作列的“导入”。
从MRS导入数据到ModelArts数据集 ModelArts支持从MRS服务中导入存储在HDFS上的csv格式的数据,首先需要选择已有的MRS集群,并从HDFS文件列表选择文件名称或所在目录,导入文件的列数需与数据集schema一致。MRS的详细功能说明,请参考MRS用户指南。
数据集配额不正确 当前每个账号支持的数据集配额为100,新版数据集页面显示所有已创建的数据集,但是旧版数据集页面不显示新版数据集。所以旧版页面存在显示不完整的情况,可以前往新版数据集页面查看。 父主题: Standard数据管理
数据集”下,选择未发布的数据集,单击数据集名称,进入数据集详情页。 在数据集详情页,单击右侧“发布”,在发布数据集页面编辑发布信息后,单击“发布”。 表1 发布数据集的参数说明 参数名称 说明 中文名称 数据集发布后显示的名称,在创建数据集时设置的名称,此处不可编辑。 任务类型 选择合适的任务类型。 许可证
dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 version_id 是 String 数据集版本ID。 请求参数 无 响应参数 无 请求示例 删除数据集标注版本 DELETE https:
Schema列表。 status Integer 数据集状态。当前可选值: 0:数据集创建中 1:数据集正常 2:数据集删除中 3:数据集已删除 4:数据集异常 5:数据集同步中 6:数据集发布中 7:数据集版本切换中 8:数据集导入中 third_path String 第三方路径。
训练数据集预处理说明 以 llama2-13b 举例,使用训练作业运行:obs_pipeline.sh 训练脚本后,脚本自动执行数据集预处理,并检查是否已经完成数据集预处理。 如果已完成数据集预处理,则直接执行训练任务。若未进行数据集预处理,则会自动执行 scripts/llam
使用从OBS选择的数据创建表格数据集如何处理Schema信息? Schema信息表示表格的列名和对应类型,需要跟导入数据的列数保持一致。 若您的原始表格中已包含表头,需要开启“导入是否包含表头”开关,系统会导入文件的第一行(表头)作为列名,无需再手动修改Schema信息。 若您的
version_format 否 String 数据集版本格式。可选值如下: Default:默认格式 CarbonData:Carbon格式(仅表格数据集支持) CSV:CSV格式 version_id 否 String 数据集版本ID。当导出数据集某一版本的数据时,需要指定该参数。 with_column_header
odelArts的数据迁移,即当您已在某一区域使用ModelArts完成数据标注,发布后的数据集可从输出路径下获得其对应的Manifest文件。在获取此Manifest文件后,可将此数据集导入其他区域或者其他账号的ModelArts中,导入后的数据已携带标注信息,无需重复标注,提升开发效率。
表1 创建数据集 参数名称 说明 英文名称 必填项,数据集的英文名称。 如果没有填写“中文名称”,则资产发布后,在数据集页签上会显示该“英文名称”。 中文名称 数据集的中文名称。 如果填写了“中文名称”,则资产发布后,在数据集页签上会显示该“中文名称”。 许可证 数据集资产遵循的
从OBS目录导入数据规范说明 导入数据集时,使用存储在OBS的数据时,数据的存储目录以及文件名称需满足ModelArts的规范要求。 当前只有“图像分类”、“物体检测”、“图像分割”、“文本分类”和“声音分类”标注类型支持按标注格式导入。 其中,“表格”类型的数据集,支持从OBS、DWS、DLI和MRS等数据源导入数据。
如何将多个物体检测的数据集合并成一个数据集? 可以在OBS桶中创建一个父级目录,目录下面设置不同的文件夹,将多个数据集分别导出到这些文件夹里面,最后用父目录创数据集即可。 登录ModelArts管理控制台,选择“数据管理>数据集”进入数据集概览页,单击右上角“导出”,将对应的数据集到导出至OBS父级目录下的子文件夹中。
推荐)。 创建数据集 本示例使用OBS中的数据作为数据集的输入目录创建数据集。参考如下操作创建一个物体检测类型的数据集,并将数据导入到数据集中。 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理 > 数据集”,进入“数据集”管理页面。 单击“创建数据集”,进入“创建
发布和管理AI Gallery数据集 托管数据集到AI Gallery 发布数据集到AI Gallery 管理AI Gallery数据集 父主题: AI Gallery(新版)
data_path String 数据集数据存储路径。 data_spliting_enable Boolean 根据样本标注统计,判断数据集是否可以进行训练/验证集切分。可选值如下: true:数据集可以进行训练/验证集切分 false:数据集无法进行训练/验证集切分 grouped_label_stats
查询数据集标签列表 功能介绍 查询数据集下所有标签列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datasets/
VOC格式的XML标注文件以及Mask图像。 导出数据为新数据集 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。 在数据集列表中,选择“图片”类型的数据集,单击数据集名称进入“数据集概览页”。 在“数据集概览页”,单击右上角“导出 ”。在弹出的“
查询数据集导入任务的详情 功能介绍 查询数据集导入任务的详情。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datase