检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
否则不需要这个字段。 type String 数据源类型。可选值如下: OBS:数据来源于OBS TASK:数据处理任务 DATASET:数据集 CUSTOM:资源租户调用 version_id String 数据集的版本。 version_name String 数据集的版本名称。 表4 TemplateParam
用户项目ID。获取方法请参见获取项目ID和名称。 task_id 是 String 数据处理任务ID。 version_id 是 String 数据处理任务的版本ID。 请求参数 无 响应参数 无 请求示例 删除数据处理任务的版本 DELETE https://{endpoint}/v2/
训练数据集预处理说明 以 llama2-13b 举例,使用训练作业运行:obs_pipeline.sh 训练脚本后,脚本自动执行数据集预处理,并检查是否已经完成数据集预处理。 如果已完成数据集预处理,则直接执行训练任务。若未进行数据集预处理,则会自动执行 scripts/llam
参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。 创建数据集 数据准备完成后,需要创建
则会导致数据集校验环节不通过,影响您的模型训练。 项目创建完成后,将会自动跳转至自动学习页面,并开始运行。单击“数据标注”节点,当状态变为“等待操作”时,需要手动进行确认数据集中的数据标注情况,也可以对数据集中的数据进行标签的修改,数据的增加或删减。 图1 数据标注节点状态 图片标注
复制数据至容器中空间不足 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致数据无法复制至容器中。 OSError:[Errno 28] No space left on device 原因分析 数据下载至容器的位置空间不足。 处理方法 请排查是否将数据下载至“
SchemaMap objects 表格数据对应的schema映射信息。 source_info SourceInfo object 导入表格数据源所需的信息。 with_column_header Boolean 文件中首行是否是列名,用于表格数据集。可选值如下: true:文件首行为列名
使用从OBS选择的数据创建表格数据集如何处理Schema信息? Schema信息表示表格的列名和对应类型,需要跟导入数据的列数保持一致。 若您的原始表格中已包含表头,需要开启“导入是否包含表头”开关,系统会导入文件的第一行(表头)作为列名,无需再手动修改Schema信息。 若您的
查询数据集标签列表 功能介绍 查询数据集下所有标签列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datasets/
如何查看新版数据集的标注详情 登录ModelArts管理控制台,左侧菜单栏选择“数据管理>数据集”。 按照数据集名称,找到您想查看的数据集,单击该数据集名称,进入数据集概览页。 在“概览”页签下,标注信息框,单击“查看标注详情”即可。 父主题: Standard数据管理
找不到新创建的数据集 目前旧版数据集页面不展示新版数据集,新版数据集查看需跳转到新版的页面。 父主题: Standard数据管理
数据集”下,选择未发布的数据集,单击数据集名称,进入数据集详情页。 在数据集详情页,单击右侧“发布”,在发布数据集页面编辑发布信息后,单击“发布”。 表1 发布数据集的参数说明 参数名称 说明 中文名称 数据集发布后显示的名称,在创建数据集时设置的名称,此处不可编辑。 任务类型 选择合适的任务类型。 许可证
如何删除数据集图片 登录ModelArts管理控制台,左侧菜单栏选择“数据管理>数据标注”,进入数据标注列表,单击需要删除图片的数据集,进入标注详情页。 在“全部”、“未标注”或“已标注”页面中,依次选中需要删除的图片,或者“选择当前页”选中该页面所有图片,然后单击删除。在弹出的
如何将某些图片划分到验证集或者训练集? 目前只能指定切分比例,随机将样本划分到训练集或者验证集,不支持指定。 切分比例的指定: 在发布数据集时,仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。 一般默认不启用该功能。启用后,需设置对应的训练验证比例。 输入“训练集比例”,数值只
ModelArts Standard数据管理相关计费FAQ ModelArts上传数据集收费吗? ModelArts中的数据集管理、标注等操作不收费,但是由于数据集存储在OBS中,因此会根据您使用的OBS桶进行收费。 建议您前往OBS服务,了解OBS计费详情,创建相应的OBS桶用于存储ModelArts使用的数据。
配置多分支节点数据 功能介绍 仅用于存在多分支执行的场景,在编写构建工作流节点时,节点的数据输入来源暂不确定,可能是多个依赖节点中任意一个节点的输出。只有当依赖节点全部执行完成后,才会根据实际执行情况自动获取有效输出作为输入。 使用案例 from modelarts import
如何将多个物体检测的数据集合并成一个数据集? 可以在OBS桶中创建一个父级目录,目录下面设置不同的文件夹,将多个数据集分别导出到这些文件夹里面,最后用父目录创数据集即可。 登录ModelArts管理控制台,选择“数据管理>数据集”进入数据集概览页,单击右上角“导出”,将对应的数据集到导出至OBS父级目录下的子文件夹中。
表1 创建数据集 参数名称 说明 英文名称 必填项,数据集的英文名称。 如果没有填写“中文名称”,则资产发布后,在数据集页签上会显示该“英文名称”。 中文名称 数据集的中文名称。 如果填写了“中文名称”,则资产发布后,在数据集页签上会显示该“中文名称”。 许可证 数据集资产遵循的
发布时是否需要解析子样本序号,用于医疗数据集。可选值如下: true:解析子样本序号 false:不解析子样本序号(默认值) include_dataset_data Boolean 发布时是否包含数据集源数据。可选值如下: true:包含数据集源数据 false:不包含数据集源数据 is_current
SchemaMap objects 表格数据对应的schema映射信息。 source_info SourceInfo object 导入表格数据源所需的信息。 with_column_header Boolean 文件中首行是否是列名,用于表格数据集。可选值如下: true:文件首行为列名