AI开发平台MODELARTS-准备数据:Alpaca数据

时间:2025-03-03 21:37:59

Alpaca数据

本教程使用到的训练数据集是Alpaca数据集。Alpaca是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用来对语言模型进行指令调优,使语言模型更好地遵循指令。

训练数据集下载:https://huggingface.co/datasets/tatsu-lab/alpaca/resolve/main/data/train-00000-of-00001-a09b74b3ef9c3b56.parquet,数据大小:24M左右。

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1604.html