搜索_华为云

无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

组装为有监督数据。使用模型构建的优点是数据丰富度更高，缺点是成本较高。当您将无监督数据构建为有监督数据时，请尽可能保证数据的多样性。建议将不同文本构建为不同的场景，甚至将同一段文本构建为多个不同的场景。不同规格的模型支持的长度不同，当您将无监督数据构建为有监督数据时，请确保数据长度符合模型长度限制。

帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类问题
预测类数据集格式要求 - 盘古大模型 PanguLargeModels

csv 数据为结构化数据，包含列和行，每一行表示一条数据，每一列表示一个特征，并且必须包含预测目标列，预测目标列要求为连续型数据。目录下只有1个数据文件时，文件无命名要求。目录下有多个数据文件时，需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样，如train01

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
使用数据工程构建CV大模型数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建CV大模型数据集 CV大模型支持接入的数据集类型盘古CV大模型支持接入图片类、视频类、其他类数据集，，不同模型所需数据见表1，数据集格式要求请参见图片类数据集格式要求、视频类数据集格式要求、其他类数据集格式要求。表1 训练CV大模型数据集类型要求基模型训练场景

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古CV大模型
使用数据工程构建数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建数据集数据工程介绍数据工程使用流程数据集格式要求导入数据至盘古平台加工数据集发布数据集数据工程常见报错与解决方案

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南
使用数据工程构建科学计算大模型数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建科学计算大模型数据集科学计算大模型支持接入的数据集类型盘古科学计算大模型仅支持接入气象类数据集，该数据集格式要求请参见气象类数据集格式要求。训练科学计算大模型训练数据要求所需数据量构建科学计算大模型进行训练的数据要求见表1。表1 科学计算大模型训练数据要求

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古科学计算大模型
数据工程 - 盘古大模型 PanguLargeModels

Studio大模型开发平台，支持的数据类型包括文本、图片、视频、气象、预测数据以及用户自定义的其他类型数据。平台提供灵活的数据接入方式以及支持多种文件格式导入，确保不同业务场景下的数据获取需求得到满足。数据清洗：平台提供强大的数据清洗功能，可以对文本、视频、图片、气象类型的数据进行数据提取、过滤、转

 帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 产品功能
使用数据工程构建NLP大模型数据集 - 盘古大模型 PanguLargeModels

jsonl 训练NLP大模型所需数据量使用数据工程构建盘古NLP大模型数据集进行模型训练时，所需数据量见表2。表2 构建NLP大模型所需数据量模型规格训练类型推荐数据量最小数据量（数据条数）单场景推荐训练数据量单条数据Token长度限制 N1 微调 - 1000条/每场景

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型
气象类清洗算子能力清单 - 盘古大模型 PanguLargeModels

气象类清洗算子能力清单数据加工算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持气象类数据集的加工操作，气象类加工算子能力清单见表1。表1 气象类清洗算子能力清单

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
使用数据工程构建预测大模型数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建预测大模型数据集预测大模型支持接入的数据集类型盘古预测大模型仅支持接入预测类数据集，不同模型所需数据见表1，该数据集格式要求请参见预测类数据集格式要求。表1 预测大模型与数据集类型对应关系基模型模型分类数据集内容文件格式预测大模型时序预测模型时序数据

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古预测大模型
图片类清洗算子能力清单 - 盘古大模型 PanguLargeModels

通过语种识别模型得到图文对的文本语种类型，“待保留语种”之外的图文对数据将被过滤。图文去重基于结构化图片去重判断相同文本对应不同的图片数据是否超过阈值，如果超过则去重。图片去重通过把图片结构化处理后，过滤重复的图片/图文对数据。数据打标图片鉴黄评分对图片的涉黄程度进行评分，分数越

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
数据工程介绍 - 盘古大模型 PanguLargeModels

通过这些功能，用户可以轻松将大量数据导入平台，为后续的数据加工和模型训练等操作做好准备。数据加工：平台提供了数据清洗、数据合成、数据标注的加工操作，旨在确保原始数据能够满足各种业务需求和模型训练的标准。数据清洗：数据清洗旨在通过使用数据集清洗算子对数据进行预处理操作，针对不同类型的数据集，平台设计

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
数据保护技术 - 盘古大模型 PanguLargeModels

数据保护技术盘古大模型服务通过多种数据保护手段和特性，保障存储在服务中的数据安全可靠。表1 盘古大模型的数据保护手段和特性数据保护手段简要说明传输加密（HTTPS）盘古服务使用HTTPS传输协议保证数据传输的安全性。基于OBS提供的数据保护基于OBS服务对用户的数

 帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 安全
配比文本类数据集 - 盘古大模型 PanguLargeModels

配比文本类数据集数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程，确保数据的多样性、平衡性和代表性。如果单个数据集已满足您的需求，可跳过此章节至流通文本类数据集。创建文本类数据集配比任务创建文本类数据集配比任务步骤如下：登录ModelArts St

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集 > 发布文本类数据集
知识库介绍 - 盘古大模型 PanguLargeModels

平台提供了知识库功能来管理和存储数据，支持为应用提供自定义数据，并与之进行互动。知识库支持导入以下格式的本地文档：文本文档数据。支持上传常见文本格式，包括：txt、doc、docx、pdf、ppt、pptx格式。表格数据。支持上传常见的表格文件格式，便于管理和分析结构化数据，包括：xlsx、xls、csv格式。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 创建与管理知识库
加工数据集 - 盘古大模型 PanguLargeModels

加工数据集数据集加工场景介绍数据集清洗算子介绍加工文本类数据集加工图片类数据集加工视频类数据集加工气象类数据集管理加工后的数据集父主题：使用数据工程构建数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
文本类清洗算子能力清单 - 盘古大模型 PanguLargeModels

文本类清洗算子能力清单数据清洗算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持文本类数据集的清洗操作，分为数据提取、数据转换、数据过滤三类，文本类加工算子能力清单见表1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
导入数据至盘古平台 - 盘古大模型 PanguLargeModels

在左侧导航栏中选择“数据工程 > 数据获取 > 原始数据集”，单击需要查看的数据集名称。查看数据集基本信息。在“基本信息”页签，可以查看数据详情、数据来源以及扩展信息。下载原始数据集。在“数据预览”页签，可以查看数据内容，单击右上角“下载”即可下载原始数据集。查看数据血缘。在“数据血缘”

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
数据工程使用流程 - 盘古大模型 PanguLargeModels

从而精确优化数据质量，确保数据满足高标准，提升模型性能。配比数据集数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比，确保数据集的多样性、平衡性和代表性，避免因数据分布不均而引发的问题。流通数据集数据流通是将单个数据集发布为特定格式的“发布数据集”，用于后续模型训练等操作。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
盘古预测大模型能力与规格 - 盘古大模型 PanguLargeModels

Anom-2.0.0 2024年12月发布的版本，支持识别数据集中不符合预期模式或行为的数据点。 Pangu-Predict-Table-TimSeries-2.0.0 2024年12月发布的版本，支持根据历史时间序列数据来预测未来的值，广泛应用于金融、销售预测、天气预报、能源消耗预测等领域。

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 模型能力与规格
发布数据集 - 盘古大模型 PanguLargeModels

发布数据集数据集发布场景介绍发布文本类数据集发布图片类数据集发布视频类数据集发布气象类数据集发布预测类数据集发布其他类数据集管理发布后的数据集父主题：使用数据工程构建数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集

总条数： 185

上一页
1
2
3
4
5
...
10
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

预测类数据集格式要求 - 盘古大模型 PanguLargeModels

使用数据工程构建CV大模型数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建科学计算大模型数据集 - 盘古大模型 PanguLargeModels

数据工程 - 盘古大模型 PanguLargeModels

使用数据工程构建NLP大模型数据集 - 盘古大模型 PanguLargeModels

气象类清洗算子能力清单 - 盘古大模型 PanguLargeModels

使用数据工程构建预测大模型数据集 - 盘古大模型 PanguLargeModels

图片类清洗算子能力清单 - 盘古大模型 PanguLargeModels

数据工程介绍 - 盘古大模型 PanguLargeModels

数据保护技术 - 盘古大模型 PanguLargeModels

配比文本类数据集 - 盘古大模型 PanguLargeModels

知识库介绍 - 盘古大模型 PanguLargeModels

加工数据集 - 盘古大模型 PanguLargeModels

文本类清洗算子能力清单 - 盘古大模型 PanguLargeModels

导入数据至盘古平台 - 盘古大模型 PanguLargeModels

数据工程使用流程 - 盘古大模型 PanguLargeModels

盘古预测大模型能力与规格 - 盘古大模型 PanguLargeModels

发布数据集 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线