检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
处理ModelArts数据集中的数据 数据处理场景介绍 创建ModelArts数据校验任务 创建ModelArts数据清洗任务 创建ModelArts数据选择任务 创建ModelArts数据增强任务 管理和查看数据处理任务 父主题: 数据准备与处理
导出ModelArts数据集中的数据 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,导出成新的数据集。用户可以通过任务历史查看数据导出的历史记录。 目前只有“图像分类”、“物体检测”、“图像分割”类型的数据集支持导出功能。 “图像分类”只支持导出txt格式的标注文件
导出ModelArts数据集中的数据为新数据集 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,导出成新的数据集。用户可以通过任务历史查看数据导出的历史记录。本章主要介绍将ModelArts数据集中的数据为新数据集的方式,新导出的数据集可直接在ModelArts
database_name String 导入表格数据集,数据库名字。 input String 表格数据集,HDFS路径。例如/datasets/demo。 ip String 用户GaussDB(DWS)集群的IP地址。
标注ModelArts数据集中的数据 数据标注场景介绍 通过人工标注方式标注数据 通过智能标注方式标注数据 通过团队标注方式标注数据 管理标注作业 父主题: 数据准备与处理
MySQL 3306 MySQL数据库对外提供服务的端口。 Windows Server Remote Desktop Services 3389 Windows远程桌面服务端口,通过这个端口可以连接Windows弹性云服务器。
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info.json
发布ModelArts数据集中的数据版本 ModelArts在数据准备过程中,针对同一数据源的数据,对不同时间处理或标注后的数据,按照版本进行区分方便后续模型构建和开发时选择对应的数据集版本进行使用。 关于数据集版本 针对刚创建的数据集(未发布前),无数据集版本信息,必须执行发布操作后
管理标注数据 同步新数据 ModelArts会自动将数据集中新增的数据同步至标注作业,包含数据及当前标注作业支持的标注信息。 为了快速获取数据集中最新数据,可在标注作业详情页的“全部”、“未标注”或“已标注”页签中,单击“同步新数据”,快速将数据集中的数据添加到标注作业中。 问题现象
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info.json
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前指令微调数据集支持alpaca格式和sharegpt格式的数据集;使用自定义数据集时,请更新代码目录下data/dataset_info.json
分析ModelArts数据集中的数据特征 基于图片或目标框对图片的各项特征,如模糊度、亮度进行分析,并绘制可视化曲线,帮助处理数据集。 您还可以选择数据集的多个版本,查看其可视化曲线,进行对比分析。 背景信息 只有“图片”的数据集,且版本标注类型为“物体检测”和“图像分类”的数据集版本支持数据特征分析
Standard数据准备 在ModelArts数据集中添加图片对图片大小有限制吗? 如何将本地标注的数据导入ModelArts? 在ModelArts中数据标注完成后,标注结果存储在哪里? 在ModelArts中如何将标注结果下载至本地? 在ModelArts中进行团队标注时,为什么团队成员收不到邮件
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info.json
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info.json
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新dataset_info.json文件
从OBS目录导入数据到数据集 前提条件 已存在创建完成的数据集。 准备需要导入的数据,具体可参见从OBS目录导入数据规范说明。 需导入的数据,已存储至OBS中。Manifest文件也需要存储至OBS。详细指导请参见创建OBS桶用于ModelArts存储数据。 确保数据存储的OBS桶与
从MRS导入数据到ModelArts数据集 ModelArts支持从MRS服务中导入存储在HDFS上的csv格式的数据,首先需要选择已有的MRS集群,并从HDFS文件列表选择文件名称或所在目录,导入文件的列数需与数据集schema一致。MRS的详细功能说明,请参考MRS用户指南。
导出ModelArts数据集中的数据到OBS 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,当需要将数据集中的数据存储至OBS用于后续导出使用时,可通过此种方式导出成新的数据集。用户可以通过任务历史查看数据导出的历史记录。 目前只有“图像分类”、“物体检测”
查询训练作业参数详情 功能介绍 查看指定的训练作业参数详情。 URI GET /v1/{project_id}/training-job-configs/{config_name} 参数说明如表1所示。 表1 路径参数 参数 是否必选 参数类型 说明 project_id 是 String