盘古大模型 PanguLargeModels-数据工程

时间：2025-02-12 15:02:13

数据工程

ModelArts Studio开发平台提供了全面的数据工程功能。该模块涵盖数据获取、加工、标注、评估和发布等关键环节，帮助用户高效构建高质量的训练数据集，推动AI应用的成功落地。具体功能如下：

数据获取：用户可以轻松将多种类型的数据导入ModelArts Studio大模型开发平台，支持的数据类型包括文本、图片、视频、气象、预测数据以及用户自定义的其他类型数据。平台提供灵活的数据接入方式以及支持多种文件格式导入，确保不同业务场景下的数据获取需求得到满足。
数据清洗：平台提供强大的数据清洗功能，可以对文本、视频、图片、气象类型的数据进行数据提取、过滤、转换、打标签和评分等加工处理。针对不同类型的数据集，平台提供了专用的清洗算子以及支持用户创建自定义算子实现个性化的数据清洗诉求。确保生成高质量的训练数据以满足业务需求和模型训练的要求。用户还可以灵活地调整算子编排顺序以及自定义清洗模板，有效提升数据清洗效率并支持大规模数据处理，确保生成的数据集符合训练的标准。
数据合成：平台支持利用预置或自定义的数据指令对预训练文本、单轮问答、单轮问答（人设））数据集类型进行处理，并根据设定的轮数生成新数据。通过数据合成技术，可以生成大量高质量的训练数据，这些数据可以用于大模型的预训练，增强模型的泛化能力和性能。
数据标注：平台支持对无标签的数据添加标签或对现有的标签进行重新标注，以提升数据集的标注质量。用户可以针对不同的数据集灵活地选择对应的标注项，还可以自定义选择多人标注、审核以及标注任务移交。针对文本和图片类数据集，平台还提供AI预标注功能。利用盘古大模型的智能能力，显著降低人工标注的工作量和成本，从而显著地提高标注效率。
数据评估：平台支持对处理后的文本、图片、视频等多种格式数据进行质量评估，并预置了基础的评估标准，用户可以直接使用预置标准或创建自定义评估标准，以满足个性化的数据质量需求。最终生成详细的质量评估报告，这些报告能够帮助用户检验数据的准确性、完整性和一致性，确保数据在进行模型训练前的高质量标准，以保证模型在实际应用中的可靠性和稳定性。
数据配比：平台支持对文本、图片类数据进行数据配比。用户在勾选数据集时可以勾选多条，通过调整不同来源或类型数据的比例，以优化模型训练过程。通过数据配比可以确保模型能够更全面地学习和理解数据的多样性，提高模型的泛化能力和性能。
数据流通：平台支持数据集配比、拆分发布。用户可以将处理后的数据集发布为多种格式，包括默认格式和盘古格式。尤其对于文本类和图片类数据集，平台支持将其转换为专门用于训练盘古大模型的盘古格式，为后续模型训练提供高效的数据支持。
数据管理：平台支持数据全链路血缘追溯，用户单击数据集名称可以在“数据血缘”页签，查看该数据集所经历的操作。全链路血缘追溯可以帮助用户正向实现数据集影响分析，逆向实现快速问题追踪，提升数据运维和数据治理的效率，帮助用户更好地对数据进行追根溯源。另外平台还提供了完善的标签体系、支持数据按行业标准进行分类、按行业标准进行安全分级、内置场景分类标签。帮助用户进行数据分类、数据质量控制和数据资产管理，提升数据治理的效率和效果。