搜索_华为云

发布文本类数据集 - 盘古大模型 PanguLargeModels

发布文本类数据集数据发布是将数据集发布为特定格式的“发布数据集”的过程，用于后续模型训练等操作。文本类数据集支持发布的格式为：标准格式：数据工程功能支持的原始格式。标准格式的示例如下，其中，context和target是键值对。 {"context": "你好，请介绍自己"

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集 > 发布文本类数据集
合成文本类数据集 - 盘古大模型 PanguLargeModels

更高、更为复杂的问题。基于提问生成作答要求该指令根据输入的问题，使大模型泛化一个相应问题的作答要求，该要求与原问题内容不直接相关。该指令可与根据作答要求回答问题的指令进行编排，实现风格多样回答的合成。根据样例生成相似问题_few-shot 该指令通过用户输入的多个问题样例，

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 加工文本类数据集
加工气象类数据集 - 盘古大模型 PanguLargeModels

Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。在左侧导航栏中选择“数据工程 > 数据加工 > 加工任务”，单击界面右上角“创建加工任务”。在“创建加工任务”页面，选择需要加工的气象类数据集，单击“下一步”。进入“加工步骤编排”页面。对于气象类数据集，可选择的加工算子请参见表1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集
加工文本类数据集 - 盘古大模型 PanguLargeModels

Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。在左侧导航栏中选择“数据工程 > 数据加工 > 加工任务”，单击界面右上角“创建加工任务”。在“创建加工任务”页面，选择需要加工的文本类数据集，单击“下一步”。进入“加工步骤编排”页面。对于文本类数据集，可选择的加工算子请参见文本类加工算子介绍。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 加工文本类数据集
标注图片类数据集 - 盘古大模型 PanguLargeModels

平台。数据标注功能支持创建标注任务、标注数据集（标注作业）、审核标注后的数据集（审核作业）与管理标注任务（任务管理）。其中，不同角色权限支持的功能及展示的前端界面略有差异，详见表1。表1 不同角色支持的数据标注任务权限清单角色名称创建标注任务标注作业任务审核作业任务任务管理任务

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 加工图片类数据集
标注视频类数据集 - 盘古大模型 PanguLargeModels

平台。数据标注功能支持创建标注任务、标注数据集（标注作业）、审核标注后的数据集（审核作业）与管理标注任务（任务管理）。其中，不同角色权限支持的功能及展示的前端界面略有差异，详见表1。表1 不同角色支持的数据标注任务权限清单角色名称创建标注任务标注作业任务审核作业任务任务管理任务

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 加工视频类数据集
气象类数据集格式要求 - 盘古大模型 PanguLargeModels

"V", "Z"]} geo_range：定义了数据覆盖的地理范围，纬度（lat）从-90.0到90.0，经度（lon）从0.0到360.0。 time_range：数据的时间范围，时间戳格式为毫秒数。 total_size：数据文件的总大小，单位为字节。 surface_featur

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
数据量足够，为什么盘古大模型微调效果仍然不好 - 盘古大模型 PanguLargeModels

数据量足够，为什么盘古大模型微调效果仍然不好这种情况可能是由于以下原因导致的，建议您排查：数据质量：请检查训练数据的质量，若训练样本和目标任务不一致或者分布差异较大、样本中存在异常数据、样本的多样性较差，都将影响模型训练的效果，建议提升您的数据质量。父主题：大模型微调训练类

 帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类
加工图片类数据集 - 盘古大模型 PanguLargeModels

Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。在左侧导航栏中选择“数据工程 > 数据加工 > 加工任务”，单击界面右上角“创建加工任务”。在“创建加工任务”页面，选择需要加工的图片类数据集，单击“下一步”。进入“加工步骤编排”页面。对于图片类数据集，可选择的加工算子请参见表1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 加工图片类数据集
发布其他类数据集 - 盘古大模型 PanguLargeModels

登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。在左侧导航栏中选择“数据工程 > 数据发布 > 发布任务”，单击界面右上角“创建发布任务”。在“创建发布任务”页面，选择数据集模态，如“其他 > 自定义”类型的数据集。图1 选择数据集模态选择数据集，单击“下一步”。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集
数据工程使用流程 - 盘古大模型 PanguLargeModels

高质量数据是推动大模型不断迭代和优化的根基，它的质量直接决定了模型的性能、泛化能力以及应用场景的适配性。只有通过系统化地准备和处理数据，才能提取出有价值的信息，从而更好地支持模型训练。因此，数据的获取、加工、合成、标注、配比、评估、发布等环节，成为数据开发中不可或缺的重要步骤。数据工程操作流程见图1、表1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
大模型开发基本流程介绍 - 盘古大模型 PanguLargeModels

Models）通常指的是具有海量参数和复杂结构的深度学习模型，广泛应用于自然语言处理（NLP）等领域。开发一个大模型的流程可以分为以下几个主要步骤：数据集准备：大模型的性能往往依赖于大量的训练数据。因此，数据集准备是模型开发的第一步。首先，需要根据业务需求收集相关的原始数据，确保数据的覆盖面和多样性。例如

 帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 基础知识
导入数据至盘古平台 - 盘古大模型 PanguLargeModels

录和管理数据集的版权信息，确保数据的使用合法合规，并清晰地了解数据集的来源和相关的版权授权。通过填写这些信息，可以追溯数据的来源，明确数据使用的限制和许可，从而保护数据版权并避免版权纠纷。单击页面右下角“立即创建”，回退至“导入任务”页面，在该页面可以查看数据集的任务状态，若状态为“运行成功”，则数据导入成功。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
加工视频类数据集 - 盘古大模型 PanguLargeModels

Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。在左侧导航栏中选择“数据工程 > 数据加工 > 加工任务”，单击界面右上角“创建加工任务”。在“创建加工任务”页面，选择需要加工的视频类数据集，单击“下一步”。进入“加工步骤编排”页面。对于视频类数据集，可选择的加工算子请参见表1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 加工视频类数据集
无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

少于xx个字的文本。”，将回答设置为符合要求的段落。续写：根据段落的首句、首段续写成完整的段落。若您的无监督文档没有任何结构化信息，可以将有监督的问题设置为“以下是一篇文章的第一个句子：xxx/第一段落：xxx。请根据以上的句子/段落，续写为一段不少于xx个字的文本。”，再将回答设置为符合要求的段落。

帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类
知识库介绍 - 盘古大模型 PanguLargeModels

平台提供了知识库功能来管理和存储数据，支持为应用提供自定义数据，并与之进行互动。知识库支持导入以下格式的本地文档：文本文档数据。支持上传常见文本格式，包括：txt、doc、docx、pdf、ppt、pptx格式。表格数据。支持上传常见的表格文件格式，便于管理和分析结构化数据，包括：xlsx、xls、csv格式。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 创建与管理知识库
使用数据工程构建NLP大模型数据集 - 盘古大模型 PanguLargeModels

两种方式，用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。标注文本类数据集配比文本类数据集数据配比是将多个数据集按特定比例组合的过程。通过合理的配比，确保数据集的多样性、平衡性和代表性，避免因数据分布不均而引发的问题。配比文本类数据集发布文本类数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型
创建NLP大模型评测数据集 - 盘古大模型 PanguLargeModels

在左侧导航栏中选择“数据工程 > 数据获取”，单击界面右上角“创建导入任务”。在“创建导入任务”页面选择所需要的“文件内容”、“文件格式”、“导入来源”，并单击“选择路径”上传数据文件。 NLP大模型评测数据集支持的格式见表1。表1 评测数据集格式模型类型评测数据集格式 NLP大模型文本-单轮问答-jsonl格式

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 评测NLP大模型
图片类加工算子介绍 - 盘古大模型 PanguLargeModels

过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母，文本长度均计数为1。图文文本语言过滤通过语种识别模型得到图文对的文本语种类型，“待保留语种”之外的图文对数据将被过滤。图文去重基于结构化图片去重判断相同文本对应不同的图片数据是否超过阈值，如果超过则去重。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集加工算子介绍
创建科学计算大模型训练任务 - 盘古大模型 PanguLargeModels

强模型的泛化能力。取值范围：[0,1]。给输入数据加噪音的尺度给输入数据加噪音的尺度，定义了给输入数据加噪音的尺度。这个值越大，添加的噪音越强烈，模型的正则化效果越强，但同时也可能会降低模型的拟合能力。取值范围：[0,1]。给输出数据加噪音的概率给输出数据加噪音的概率，定

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古科学计算大模型 > 训练科学计算大模型

总条数： 175

上一页
1
2
3
4
5
...
9
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

发布文本类数据集 - 盘古大模型 PanguLargeModels

合成文本类数据集 - 盘古大模型 PanguLargeModels

加工气象类数据集 - 盘古大模型 PanguLargeModels

加工文本类数据集 - 盘古大模型 PanguLargeModels

标注图片类数据集 - 盘古大模型 PanguLargeModels

标注视频类数据集 - 盘古大模型 PanguLargeModels

气象类数据集格式要求 - 盘古大模型 PanguLargeModels

数据量足够，为什么盘古大模型微调效果仍然不好 - 盘古大模型 PanguLargeModels

加工图片类数据集 - 盘古大模型 PanguLargeModels

发布其他类数据集 - 盘古大模型 PanguLargeModels

数据工程使用流程 - 盘古大模型 PanguLargeModels

大模型开发基本流程介绍 - 盘古大模型 PanguLargeModels

导入数据至盘古平台 - 盘古大模型 PanguLargeModels

加工视频类数据集 - 盘古大模型 PanguLargeModels

无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

知识库介绍 - 盘古大模型 PanguLargeModels

使用数据工程构建NLP大模型数据集 - 盘古大模型 PanguLargeModels

创建NLP大模型评测数据集 - 盘古大模型 PanguLargeModels

图片类加工算子介绍 - 盘古大模型 PanguLargeModels

创建科学计算大模型训练任务 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线