检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何将本地的数据上传至平台 ModelArts Studio平台支持从OBS服务导入数据。您可以将本地数据上传至OBS(对象存储服务),然后通过平台提供的“数据导入”功能,将存储在OBS中的数据导入至平台进行使用。 具体操作步骤如下: 上传数据至OBS:将本地数据上传至OBS服务,请详见通过控制台快速使用OBS。
在左侧导航栏中选择“数据工程 > 数据获取 > 原始数据集”,单击需要查看的数据集名称。 查看数据集基本信息。在“基本信息”页签,可以查看数据详情、数据来源以及扩展信息。 下载原始数据集。在“数据预览”页签,可以查看数据内容,单击右上角“下载”即可下载原始数据集。 查看数据血缘。在“数据血缘”
Agent开发平台介绍 Agent开发平台简介 Agent开发平台是基于NLP大模型,致力打造智能时代集开发、调测和运行为一体的AI应用平台。无论开发者是否拥有大模型应用的编程经验,都可以通过Agent平台快速创建各种类型的智能体。Agent开发平台旨在帮助开发者高效低成本的构建
创建并管理盘古工作空间 使用数据工程构建NLP大模型数据集 导入数据至盘古平台 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 加工文本类数据集 对文本类数据集进行加工,包括清洗、合成、标注操作。 加工文本类数据集 发布文本类数据集 对文本类数据集进行发布,包括评估、配比、流通操作。
自定义格式:用户可以根据业务需求上传自定义格式的数据,提升数据获取的灵活性和可扩展性。 通过这些功能,用户可以轻松将大量数据导入平台,为后续的数据加工和模型训练等操作做好准备。 数据加工:平台提供了数据清洗、数据合成、数据标注的加工操作,旨在确保原始数据能够满足各种业务需求和模型训练的标准。 数据清洗:数据清洗旨在通
Studio大模型开发平台,支持的数据类型包括文本、图片、视频、气象、预测数据以及用户自定义的其他类型数据。平台提供灵活的数据接入方式以及支持多种文件格式导入,确保不同业务场景下的数据获取需求得到满足。 数据清洗:平台提供强大的数据清洗功能,可以对文本、视频、图片、气象类型的数据进行数据提取
管理加工后的数据集 完成数据清洗、数据合成、或数据标注任务的数据集,在对应任务列表执行“生成”操作,将生成“加工数据集”被平台统一管理,并用于后续的发布任务。 平台支持对加工数据集查看基本信息、数据血缘等管理操作,具体步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
在左侧导航栏中选择“数据工程 > 数据发布 > 发布数据集”。 单击数据集名称查看发布数据集的基本信息、数据预览、数据血缘以及操作记录。 在“基本信息”页签可查看数据集的详细信息。 在“数据预览”页签可查看发布后的数据内容。 在“数据血缘”页签查看该数据集所经历的操作,如导入、合成等操作。
使用数据工程构建数据集 数据工程介绍 数据工程使用流程 数据集格式要求 导入数据至盘古平台 加工数据集 发布数据集 数据工程常见报错与解决方案
清洗视频类数据集 清洗视频类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建视频类数据集清洗任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 数据清洗”,单击界面右上角“创建清洗任务”。
清洗气象类数据集 清洗气象类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建气象类数据集清洗任务 创建气象类数据集清洗任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 >
合成文本类数据集 当前,数据合成功能支持合成单轮问答、单轮问答(人设)类型的数据。 创建文本类数据集合成任务 合成文本类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建文本类数据集合成任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
清洗文本类数据集 清洗文本类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建文本类数据集清洗任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 数据清洗”,单击界面右上角“创建清洗任务”。
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹
清洗图片类数据集 清洗图片类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建图片类数据集清洗任务 创建图片类数据集清洗任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 >
选择数据集,单击“下一步”。 在“格式配置”选择发布格式。由于数据工程需要支持对接盘古大模型,为了使这些数据集能够被这些大模型正常训练,平台支持发布不同格式的数据集。 当前支持默认格式、盘古格式: 默认格式:数据工程功能支持的原始格式。 盘古格式:使用盘古大模型训练时所需要使用的数据格式。
可部分标注”,则可在标注部分数据后,单击右上角的“提交全部标注数据”,让AI大模型自动标注剩余数据。 在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 审核标注后的视频类数据集
预训练文本 jsonl jsonl格式:text表示预训练所使用的文本数据,具体格式示例如下: {"text":"盘古大模型,是华为推出的盘古系列AI大模型,包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"} 单个文件大小不超过50GB,文件数量最多1000个。。
标注文本类数据集 创建文本类数据集标注任务 标注文本类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建文本类数据集标注任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 >
可部分标注”,则可在标注部分数据后,单击右上角的“提交全部标注数据”,让AI大模型自动标注剩余数据。 在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 审核标注后的图片类数据集