检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
上传文件限xlsx格式。 数据行数不小于10行,不大于50行。 数据不允许相同表头,表头数量小于20个。 数据单条文本长度不超过1000。 创建数据集时会对相关限制条件进行校验。 数据参考格式如下: 图1 数据参考格式 图2 数据示例 创建提示词评估数据集 登录ModelArts
进入审核页面后,可通过单击“通过”或“不通过”逐一对数据进行审核,直至所有数据审核完成。 审核过程中可开启“标注前后对比”功能,查看当前数据标注前后的内容。 在完成数据标注审核后,需在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 父主题:
可部分标注”,则可在标注部分数据后,单击右上角的“提交全部标注数据”,让AI大模型自动标注剩余数据。 在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 审核标注后的视频类数据集
可部分标注”,则可在标注部分数据后,单击右上角的“提交全部标注数据”,让AI大模型自动标注剩余数据。 在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 审核标注后的图片类数据集
批量评估提示词效果 创建提示词评估数据集 创建提示词评估任务 查看提示词评估结果 父主题: 开发盘古大模型提示词工程
Studio大模型开发平台,支持的数据类型包括文本、图片、视频、气象、预测数据以及用户自定义的其他类型数据。平台提供灵活的数据接入方式以及支持多种文件格式导入,确保不同业务场景下的数据获取需求得到满足。 数据清洗:平台提供强大的数据清洗功能,可以对文本、视频、图片、气象类型的数据进行数据提取、过滤、转
加工数据集 数据集加工场景介绍 数据集清洗算子介绍 加工文本类数据集 加工图片类数据集 加工视频类数据集 加工气象类数据集 管理加工后的数据集 父主题: 使用数据工程构建数据集
jsonl 训练NLP大模型所需数据量 使用数据工程构建盘古NLP大模型数据集进行模型训练时,所需数据量见表2。 表2 构建NLP大模型所需数据量 模型规格 训练类型 推荐数据量 最小数据量(数据条数) 单场景推荐训练数据量 单条数据Token长度限制 N1 微调 - 1000条/每场景
在左侧导航栏中选择“数据工程 > 数据获取 > 原始数据集”,单击需要查看的数据集名称。 查看数据集基本信息。在“基本信息”页签,可以查看数据详情、数据来源以及扩展信息。 下载原始数据集。在“数据预览”页签,可以查看数据内容,单击右上角“下载”即可下载原始数据集。 查看数据血缘。在“数据血缘”
使用数据工程构建科学计算大模型数据集 科学计算大模型支持接入的数据集类型 盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。 训练科学计算大模型训练数据要求所需数据量 构建科学计算大模型进行训练的数据要求见表1。 表1 科学计算大模型训练数据要求
使用数据工程构建数据集 数据工程介绍 数据工程使用流程 数据集格式要求 导入数据至盘古平台 加工数据集 发布数据集 数据工程常见报错与解决方案
”。在候选列表中,勾选需要进行横向比对的提示词,并单击“创建评估”。 图1 创建评估 选择评估使用的变量数据集和评估方法。 评估用例集:根据选择的数据集,将待评估的提示词和数据集中的变量自动组装成完整的提示词,输入模型生成结果。 评估方法:根据选择的评估方法,对模型生成结果和预期
通过这些功能,用户可以轻松将大量数据导入平台,为后续的数据加工和模型训练等操作做好准备。 数据加工:平台提供了数据清洗、数据合成、数据标注的加工操作,旨在确保原始数据能够满足各种业务需求和模型训练的标准。 数据清洗:数据清洗旨在通过使用数据集清洗算子对数据进行预处理操作,针对不同类型的数据集,平台设计
使用数据工程构建预测大模型数据集 预测大模型支持接入的数据集类型 盘古预测大模型仅支持接入预测类数据集,不同模型所需数据见表1,该数据集格式要求请参见预测类数据集格式要求。 表1 预测大模型与数据集类型对应关系 基模型 模型分类 数据集内容 文件格式 预测大模型 时序预测模型 时序数据
从而精确优化数据质量,确保数据满足高标准,提升模型性能。 配比数据集 数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 流通数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。
使用数据工程构建CV大模型数据集 CV大模型支持接入的数据集类型 盘古CV大模型支持接入图片类、视频类、其他类数据集,,不同模型所需数据见表1,数据集格式要求请参见图片类数据集格式要求、视频类数据集格式要求、其他类数据集格式要求。 表1 训练CV大模型数据集类型要求 基模型 训练场景
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹
发布数据集 数据集发布场景介绍 发布文本类数据集 发布图片类数据集 发布视频类数据集 发布气象类数据集 发布预测类数据集 发布其他类数据集 管理发布后的数据集 父主题: 使用数据工程构建数据集
图2 查看评估进展 评估完成后,可以查看每条数据的评估结果。 在评估结果中,“预期结果”表示变量值(问题)所预设的期望回答,“生成结果”表示模型回复的结果。通过比对“预期结果”、“生成结果”的差异可以判断提示词效果。 父主题: 批量评估提示词效果
数据保护技术 盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。 基于OBS提供的数据保护 基于OBS服务对用户的数