云服务器内容精选

华为云首页用户手册

开发盘古NLP大模型

盘古大模型 PanguLargeModels-使用数据工程构建NLP大模型数据集:构建NLP大模型数据集流程

构建NLP大模型数据集流程在ModelArts Studio大模型开发平台中，使用数据工程构建盘古NLP大模型数据集流程见表3。表3 盘古NLP大模型数据集构建流程流程子流程说明操作指导导入数据至盘古平台创建导入任务将存储在OBS服务中的数据导入至平台统一管理，用于后续加工或发布操作。导入数据至盘古平台加工文本类数据集清洗文本类数据集通过专用的清洗算子对数据进行预处理，确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子，例如去除噪声、冗余信息等，提升数据质量。清洗文本类数据集合成文本类数据集利用预置或自定义的数据指令对原始数据进行处理，并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集，增强训练模型的多样性和泛化能力。合成文本类数据集标注文本类数据集为无标签数据集添加准确的标签，确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式，用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。标注文本类数据集发布文本类数据集评估文本类数据集平台预置了多种数据类型的基础评估标准，包括NLP、视频和图片数据，用户可根据需求选择预置标准或自定义评估标准，从而精确优化数据质量，确保数据满足高标准，提升模型性能。评估文本类数据集配比文本类数据集数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比，确保数据集的多样性、平衡性和代表性，避免因数据分布不均而引发的问题。配比文本类数据集流通文本类数据集数据流通是将单个数据集发布为特定格式的“发布数据集”，用于后续模型训练等操作。平台支持发布的数据集格式为默认格式、盘古格式。默认格式：平台默认的格式。盘古格式：训练盘古大模型时，需要发布为该格式。当前仅文本类、图片类数据集支持发布为盘古格式。流通文本类数据集

盘古大模型 PanguLargeModels 开发盘古NLP大模型
盘古大模型 PanguLargeModels-使用数据工程构建NLP大模型数据集:NLP大模型支持接入的数据集类型

NLP大模型支持接入的数据集类型盘古NLP大模型仅支持接入文本类数据集，数据集文件内容包括：预训练文本、单轮问答、多轮问答、带人设单轮问答、带人设多轮问答等，不同训练方式所需要使用的数据见表1，该数据集格式要求请参见文本类数据集格式要求。表1 训练NLP大模型数据集类型要求基模型训练场景数据集类型数据集内容文件格式 NLP 预训练文本预训练文本 jsonl 微调文本单轮问答 jsonl、csv 文本多轮问答 jsonl 文本单轮问答（人设） jsonl、csv 文本多轮问答（人设） jsonl

盘古大模型 PanguLargeModels 开发盘古NLP大模型
盘古大模型 PanguLargeModels-使用数据工程构建NLP大模型数据集:训练NLP大模型所需数据量

训练NLP大模型所需数据量使用数据工程构建盘古NLP大模型数据集进行模型训练时，所需数据量见表2。表2 构建NLP大模型所需数据量模型规格训练类型推荐数据量最小数据量（数据条数）单场景推荐训练数据量单条数据Token长度限制 N1 微调 - 1000条/每场景 ≥ 1万条/每场景 32K N2 微调 - 1000条/每场景 ≥ 1万条/每场景 32K N4 微调 - 1000条/每场景 ≥ 1万条/每场景 4K版本：4096 32K版本：32768

盘古大模型 PanguLargeModels 开发盘古NLP大模型