AI开发平台MODELARTS-准备数据:自定义数据

时间：2024-09-24 10:50:15

AI开发平台MODELARTS

自定义数据

用户也可以自行准备训练数据。数据要求如下：

使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。

请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称，默认为text。在维基百科数据集中，它有四列，分别是id、url、title和text。可以指定–json-key标志来选择用于训练的列。

{
    'id': '1',
    'url': 'https://simple.wikipedia.org/wiki/April',
    'title': 'April',
    'text': 'April is the fourth month...'
}

经下载的原始数据存放在/home/ma-user/ws/training_data目录下。具体步骤如下：

进入到/home/ma-user/ws/目录下。

创建目录“training_data/pretrain”，并将预训练原始数据放置在此处。

mkdir -p training_data/pretrain

创建目录“training_data/finetune”，并将微调训练原始数据放置在此处

mkdir -p training_data/finetune

数据存放参考目录结构如下：

${workdir}（例如/home/ma-user/ws ）
  ├── training_data                   #原始数据目录
        ├── pretrain                  #预训练加载的数据
                ├── train-00000-of-00001-a09b74b3ef9c3b56.parquet  #预训练原始数据文件
        ├── finetune                  #微调训练加载的数据
                ├── Alpaca_data_gpt4_zh.jsonl                          #微调训练原始数据文件

上一篇：AI开发平台MODELARTS-准备数据:Alpaca数据

下一篇：AI开发平台MODELARTS-准备数据:Alpaca数据