盘古大模型 PANGULARGEMODELS-数据工程介绍:数据工程介绍

时间:2025-02-28 09:10:47

数据工程介绍

数据工程是ModelArts Studio大模型开发平台(下文简称“平台”)为用户提供的一站式数据处理与管理功能,旨在通过系统化的数据获取、加工、发布等过程,确保数据能够高效、准确地为大模型的训练提供支持,帮助用户高效管理和处理数据,提升数据质量和处理效率,为大模型开发提供坚实的数据基础。

数据工程包含的具体功能如下:

  • 数据获取:数据获取是数据工程的第一步,支持将不同来源和格式的数据导入平台,并生成“原始数据集”。
    • 支持的接入方式:通过OBS服务导入数据。
    • 支持的数据类型:文本、图片、视频、气象、预测、其他。

    通过这些功能,用户可以轻松将大量数据导入平台,为后续的数据加工和模型训练等操作做好准备。

  • 数据加工:平台提供了数据加工、数据合成、数据标注、数据配比的加工操作,旨在确保原始数据能够满足各种业务需求和模型训练的标准,生成“加工数据集”。
    • 数据加工:数据加工旨在通过使用数据集加工算子对数据进行预处理操作,针对不同类型的数据集,平台设计了专用的加工算子,以确保数据符合模型训练的标准和业务需求。
    • 数据合成:数据合成利用预置或自定义的数据指令对原始数据集进行处理,并根据设定的轮数生成新的数据。
    • 数据标注:数据标注旨在为无标签的数据集添加准确的标签,标注数据的质量直接影响模型的训练效果和精度。针对不同数据集平台支持人工标注与AI预标注两种形式。

      其中,图片Caption、视频Caption标注项支持AI预标注功能。

    • 数据配比:将多个数据集按照特定比例关系组合并为一个“加工数据集”的过程,确保数据的多样性、平衡性和代表性。

    通过数据加工操作,平台能够有效清理噪声数据、标准化数据格式,提升数据集的整体质量。

  • 数据发布:平台提供了数据评估、数据发布操作,旨在通过数据质量评估确保数据满足大模型训练的多样性、平衡性和代表性需求,并促进数据的高效流通与应用,生成“发布数据集”。
    • 数据评估:数据评估通过对数据集进行系统的质量检查,依据评估标准评估数据的多个维度,旨在发现潜在问题并加以解决。
    • 数据发布:将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。

      支持发布的数据集格式为标准格式、盘古格式(适用于训练盘古大模型时)。目前,仅文本类和图片类数据集支持发布为“盘古格式”。

在集成了数据获取、数据加工、数据发布功能外,平台还支持对原始数据集、加工数据集、发布数据集、数据合成指令进行一站式管理。在大规模数据集的构建过程中,ModelArts Studio大模型开发平台的数据工程功能为用户提供了极大的灵活性和高效性,确保了数据处理的各个环节都能紧密协作,快速响应不断变化的业务需求和技术要求。

support.huaweicloud.com/usermanual-pangulm/pangulm_04_0016.html