搜索_华为云

优化训练数据的质量 - 盘古大模型 PanguLargeModels

优化训练数据的质量在数据科学和机器学习领域，数据的质量和多样性对模型的效果至关重要。通过有效的数据预处理和数据优化方法，通过提升训练数据的质量可以显著提升训练所得模型的效果。以下是一些关键的数据优化方法及其具体过程：数据加工错误数据过滤：在大规模数据集中，噪声和错误数据是不可

 帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 模型调优实践 > 盘古NLP大模型调优实践
预测类数据集格式要求 - 盘古大模型 PanguLargeModels

预测类数据集格式要求平台支持创建预测类数据集，创建时可导入时序数据、回归分类数据。时序数据：时序预测数据是一种按时间顺序排列的数据序列，用于预测未来事件或趋势，过去的数据会影响未来的预测。回归分类数据：回归分类数据包含多种预测因子（特征），用于预测连续变量的值，与时序数据不同，回归分类数据不要求数据具有时间顺序。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
数据预处理优化 - 盘古大模型 PanguLargeModels

异常值。通过可视化方法，数据可视化或者使用箱线图进行异常值的排查。结合数据自身特征，进行异常数据的筛选。对于异常值，视情况进行删除、替换、保留等操作，兼顾模型的收敛与鲁棒性。优化举例：某数据集中，盐度（S）变量在下载过程中存在数据块缺失与数据块偏移的问题，如图1、图2，

帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 模型调优实践 > 盘古科学计算大模型调优实践
视频类数据集格式要求 - 盘古大模型 PanguLargeModels

视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集，创建时可导入多种形式的数据，具体格式要求详见表1。表1 视频类数据集格式要求文件内容文件格式文件要求视频 mp4或avi 支持mp4、avi视频格式上传，所有视频可以放在多个文件夹

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
数据工程 - 盘古大模型 PanguLargeModels

数据合成：平台支持利用预置或自定义的数据指令对预训练文本、单轮问答、单轮问答（人设））数据集类型进行处理，并根据设定的轮数生成新数据。通过数据合成技术，可以生成大量高质量的训练数据，这些数据可以用于大模型的预训练，增强模型的泛化能力和性能。数据标注：平台支持对无标签的数据添加

 帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 产品功能
数据保护技术 - 盘古大模型 PanguLargeModels

数据保护技术盘古大模型服务通过多种数据保护手段和特性，保障存储在服务中的数据安全可靠。表1 盘古大模型的数据保护手段和特性数据保护手段简要说明传输加密（HTTPS）盘古服务使用HTTPS传输协议保证数据传输的安全性。基于OBS提供的数据保护基于OBS服务对用户的数

 帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 安全
数据工程介绍 - 盘古大模型 PanguLargeModels

通过这些功能，用户可以轻松将大量数据导入平台，为后续的数据加工和模型训练等操作做好准备。数据加工：平台提供了数据加工、数据合成、数据标注、数据配比的加工操作，旨在确保原始数据能够满足各种业务需求和模型训练的标准，生成“加工数据集”。数据加工：数据加工旨在通过使用数据集加工算子对数据进行预处理操作

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
标注图片类数据集 - 盘古大模型 PanguLargeModels

在完成数据标注后，如果无需进行标注审核，可直接在“数据标注 > 任务管理”页面单击“生成”，生成加工数据集。生成的加工数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。审核标注后的图片类数据集如果在创建图片类数据集标注任务时启用了标注审核功能，则在完成标注

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 加工图片类数据集
标注文本类数据集 - 盘古大模型 PanguLargeModels

任务管理”页面单击“生成”，生成加工数据集。生成后的加工数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。管理标注后的文本类数据集平台支持超级管理员、管理员、标注管理员对标注的数据集进行如下操作：生成：在完成数据标注审核后，需超级管理员、管理员、标注管理员角色在“标

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 加工文本类数据集
标注视频类数据集 - 盘古大模型 PanguLargeModels

在完成数据标注后，如果无需进行标注审核，可直接在“数据标注 > 任务管理”页面单击“生成”，生成加工数据集。生成的加工数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。审核标注后的视频类数据集如果在创建视频类数据集标注任务时启用了标注审核功能，则在完成标注

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 加工视频类数据集
使用数据工程构建NLP大模型数据集 - 盘古大模型 PanguLargeModels

jsonl 训练NLP大模型所需数据量使用数据工程构建盘古NLP大模型数据集进行模型训练时，所需数据量见表2。表2 构建NLP大模型所需数据量模型规格训练类型推荐数据量最小数据量（数据条数）单场景推荐训练数据量单条数据Token长度限制 N1 微调 - 1000条/每场景

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型
管理盘古数据资产 - 盘古大模型 PanguLargeModels

管理盘古数据资产数据资产介绍数据资产是指在平台中被纳入管理、存储并可供使用的数据集。数据资产包含以下两种形式：用户自行发布的数据集。用户可以通过“数据工程 > 数据发布 > 数据流通”功能将数据集发布为数据资产。发布的数据集支持查看详细信息、编辑、删除以及发布至AI Gallery等操作。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 管理盘古大模型空间资产
数据集加工场景介绍 - 盘古大模型 PanguLargeModels

总体而言，数据加工不仅提升了数据处理的效率，还可通过优化数据质量和针对性处理，支持高效的模型训练。通过数据加工，用户能够快速构建高质量的数据集，推动大模型的成功开发。支持数据加工的数据集类型当前支持数据加工操作的数据集类型见表1。表1 支持数据加工操作的数据集类型数据类型数据加工

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集
加工数据集 - 盘古大模型 PanguLargeModels

加工数据集数据集加工场景介绍数据集加工算子介绍加工文本类数据集加工图片类数据集加工视频类数据集加工气象类数据集管理加工后的数据集父主题：使用数据工程构建数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
发布数据集 - 盘古大模型 PanguLargeModels

发布数据集数据集发布场景介绍发布文本类数据集发布图片类数据集发布视频类数据集发布气象类数据集发布预测类数据集发布其他类数据集管理发布后的数据集父主题：使用数据工程构建数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
数据工程使用流程 - 盘古大模型 PanguLargeModels

通过专用的加工算子对数据进行预处理，确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子，例如去除噪声、冗余信息等，提升数据质量。合成数据集利用预置或自定义的数据指令对原始数据进行处理，并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集，增强训练模型的多样性和泛化能力。标注数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
使用数据工程构建数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建数据集数据工程介绍数据工程使用流程数据集格式要求导入数据至盘古平台加工数据集发布数据集数据工程常见报错与解决方案

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南
导入数据至盘古平台 - 盘古大模型 PanguLargeModels

在左侧导航栏中选择“数据工程 > 数据获取 > 原始数据集”，单击需要查看的数据集名称。查看数据集基本信息。在“基本信息”页签，可以查看数据详情、数据来源以及扩展信息。下载原始数据集。在“数据预览”页签，可以查看数据内容，单击右上角“下载”即可下载原始数据集。查看数据血缘。在“数据血缘”

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
使用数据工程构建科学计算大模型数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建科学计算大模型数据集科学计算大模型支持接入的数据集类型盘古科学计算大模型仅支持接入气象类数据集，该数据集格式要求请参见气象类数据集格式要求。训练科学计算大模型训练数据要求所需数据量构建科学计算大模型进行训练的数据要求见表1。表1 科学计算大模型训练数据要求

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古科学计算大模型
发布文本类数据集 - 盘古大模型 PanguLargeModels

在左侧导航栏中选择“数据工程 > 数据发布 > 发布任务”，单击界面右上角“创建发布任务”。在“创建发布任务”页面，选择数据集模态，如“文本 > 预训练文本”类型的数据集。图1 选择数据集模态选择数据集，单击“下一步”。在“基本配置”中选择数据用途、数据集可见性、适用场景。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集 > 发布文本类数据集

总条数： 191

上一页
1
2
3
4
5
...
10
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

优化训练数据的质量 - 盘古大模型 PanguLargeModels

预测类数据集格式要求 - 盘古大模型 PanguLargeModels

数据预处理优化 - 盘古大模型 PanguLargeModels

视频类数据集格式要求 - 盘古大模型 PanguLargeModels

数据工程 - 盘古大模型 PanguLargeModels

数据保护技术 - 盘古大模型 PanguLargeModels

数据工程介绍 - 盘古大模型 PanguLargeModels

标注图片类数据集 - 盘古大模型 PanguLargeModels

标注文本类数据集 - 盘古大模型 PanguLargeModels

标注视频类数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建NLP大模型数据集 - 盘古大模型 PanguLargeModels

管理盘古数据资产 - 盘古大模型 PanguLargeModels

数据集加工场景介绍 - 盘古大模型 PanguLargeModels

加工数据集 - 盘古大模型 PanguLargeModels

发布数据集 - 盘古大模型 PanguLargeModels

数据工程使用流程 - 盘古大模型 PanguLargeModels

使用数据工程构建数据集 - 盘古大模型 PanguLargeModels

导入数据至盘古平台 - 盘古大模型 PanguLargeModels

使用数据工程构建科学计算大模型数据集 - 盘古大模型 PanguLargeModels

发布文本类数据集 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线