检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
评估图片类数据集 创建图片类数据集评估标准 创建图片类数据集评估任务 获取图片类数据集评估报告 父主题: 评估数据集
标注图片类数据集 创建图片类数据集标注任务 审核图片类数据集标注结果 上线标注后的图片类数据集 父主题: 标注数据集
加工图片类数据集 创建图片类数据集加工任务 上线加工后的图片类数据集 父主题: 加工数据集
取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持视频类数据集的加工操作,分为数据提取、数据过滤、数据打标三类,视频类加工算子能力清单见表1。 表1 视频类加工算子能力清单 算子分类 算子名称 算子描述
生成高质量的训练数据。 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类加工算子能力清单 算子分类 算子名称 算子描述 科学计算 气象预处理 将二进制格式的气象数据文件转换成结构化json数据。 父主题: 数据集加工算子介绍
创建提示词评估数据集 批量评估提示词效果前,需要先上传提示词变量数据文件用于创建对应的评估数据集。 提示词变量是一种可以在文本生成中动态替换的占位符,用于根据不同的场景或用户输入生成不同的内容。其中,变量名称可以是任意的文字,用于描述变量的含义或作用。 提示词评估数据集约束限制 上传文件限xlsx格式。
练或评测。 创建文本类数据集标注任务 审核数据集标注结果 对数据集的标注结果进行审核 审核文本类数据集标注结果 上线标注后的数据集 对标注后的数据集执行上线操作。 上线标注后的文本类数据集 评估数据集(可选) 创建文本类数据集评估标准 创建数据集评估标准。评估文本通顺性、信息充分性、内容有效性等。
数据文件格式要求 文本类 文档 支持txt、mobi、epub、docx、pdf,详见文本类数据集格式要求。 网页 支持html,详见文本类数据集格式要求。 预训练文本 支持jsonl,详见文本类数据集格式要求。 单轮问答 支持jsonl、csv,详见文本类数据集格式要求。 单轮问答(人设)
上线加工后的数据集 对加工后的数据集执行上线操作。 标注数据集(可选) 创建数据集标注任务 创建数据集标注任务,并对数据集执行标注操作,标注后的数据可以用于模型训练。 审核数据集标注结果 对数据集的标注结果进行审核。 上线标注后的数据集 对标注后的数据集执行上线操作。 评估数据集(可选)
数据获取”,单击右上角“创建原始数据集”。 在“创建原始数据集”页面,选择“文本 > 单轮问答”,选择文件格式、文件来源并添加文件,填写数据集名称及描述,单击“立即创建”。 图1 创建原始数据集 创建成功的数据集的任务状态为“成功”,单击操作列的“上线”按钮,将该数据集上线,用于后续加工操作。
使用数据工程准备与处理数据集 数据工程介绍 数据工程使用流程 数据集格式要求 导入数据至盘古平台 加工数据集 标注数据集 评估数据集 发布数据集 数据工程常见报错与解决方案
创建为原始数据集进行统一管理。 创建原始数据集 上线原始数据集 在正式发布数据集前,需要执行上线操作。 上线原始数据集 加工数据集(可选) 创建气象类数据集加工任务 数据集中若存在异常数据,可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。 创建气象类数据集加工任务 上线加工后的数据集
数据获取”,单击右上角“创建原始数据集”。 在“创建原始数据集”页面,选择“图片 > 图片+Caption”,选择文件格式、文件来源,填写数据集名称及描述,单击“立即创建”。 创建成功的数据集的任务状态为“成功”,单击操作列的“上线”按钮,将该数据集上线,用于后续标注操作。 选择左侧“数据工程
可以在“创建原始数据集”页面下载数据样例进行比对。 上线原始数据集 原始数据集创建成功后,在“数据获取”页面的操作列单击“上线”,完成原始数据集上线。 图6 上线数据集 只有上线后的数据集才可用于后续的数据加工、标注、评估、发布操作。 管理原始数据集 原始数据集上线成功后,支持查
本样例场景实现将存储在OBS的文本数据导入至盘古平台,并上线为原始数据集。 步骤2:加工文本类数据集 本样例场景帮助用户利用数据集加工算子处理原始数据集。 步骤3:标注文本类数据集 本样例场景帮助用户高效完成数据标注任务,提升标注数据的可靠性和可用性。 步骤4:评估文本类数据集 本样例场景帮助
not exist. 请检查标注数据集是否存在,是否被删除。 obs url invalid. 请检查数据集对应的OBS路径是否有效,是否可正常访问。 data management query dataset data invalid. 请检查标注数据集是否存在,是否被删除。 dataset
NLP大模型专门用于处理和理解人类语言。它能够执行多种任务,如对话问答、文案生成和阅读理解,同时具备逻辑推理、代码生成和插件调用等高级功能。 NLP大模型的训练分为两个关键阶段:预训练和微调。 预训练阶段:在这一阶段,模型通过学习大规模通用数据集来掌握语言的基本模式和语义。这一过程为模型提供了
管理盘古数据资产 数据资产介绍 用户发布的数据集会被纳入数据资产,集中存储在空间资产中。平台为数据资产提供了一系列管理功能,包括查看数据集的详细信息、追踪操作记录、以及数据集的删除管理等。这不仅便于用户对已发布数据集的集中管理,还可帮助用户了解每个数据集的使用情况,从而简化数据资产的维护
创建数据集标注任务,并对数据集执行标注操作,标注后的数据可以用于模型训练。 创建文本类数据集标注任务 创建文本类数据集评估任务 评估文本通顺性、信息充分性、内容有效性等。 创建文本类数据集评估任务 创建文本类数据集发布任务 创建数据集发布任务,并进行正式的数据集发布操作,可用于后续的训练任务。 平台支
便于用户实现统一查看和操作管理。 数据资产:用户已发布的数据集将作为数据资产存放在空间资产中。用户可以查看数据集的详细信息,包括数据格式、大小、配比比例等。同时,平台支持数据集的删除等管理操作,使用户能够统一管理数据集资源,以便在模型训练和分析时灵活调用,确保数据资产的规范性与安全性。