华为云首页用户手册

AI开发平台MODELARTS-准备数据（可选）:上传自定义数据到指定目录

AI开发平台MODELARTS-准备数据（可选）:上传自定义数据到指定目录

时间：2024-11-12 16:42:43

AI开发平台MODELARTS

上传自定义数据到指定目录

将下载的原始数据存放在{work_dir}/llm_train/LLaMAFactory/LLaMA-Factory/data目录下。具体步骤如下：

进入到/home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data目录下。
```
cd  /home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data
```
将自定义原始数据（指令监督微调样例数据集：alpaca_gpt4_data.json.json）按照下面的数据存放目录要求放置。

指令微调样例数据集alpaca_gpt4_data.json.json的下载链接：https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json

数据存放参考目录结构如下：
```
${workdir}（例如/home/ma-user/ws/llm_train ）
  |── LLaMAFactory/data
       |── alpaca_en_demo.json                   # 代码原有数据集
       |── identity.json                         # 代码原有数据集
       ...
       |── alpaca_gpt4_data.json                 # 自定义数据集
```
更新代码目录下data/dataset_info.json文件。如使用以下示例数据集则命令如下。关于数据集文件格式及配置，更多样例格式信息请参考data/README_zh.md 的内容。
```
vim dataset_info.json
```
新加配置参数如下：
```
"alpaca_gpt4_data": {
    "file_name": "alpaca_gpt4_data.json"
  },
```
样例截图：

上一篇：AI开发平台MODELARTS-执行训练任务:步骤二修改训练yaml文件配置

下一篇：AI开发平台MODELARTS-准备镜像环境:镜像地址

华为云11.11 2核1G 2M 云服务器

29元/年

立即注册领万元上云礼券

抽奖赢11111元免单

续费同价 L实例 2核2G 4M

98元/年

热门域名 1元随心购

1元/年

AI开发平台MODELARTS-准备数据（可选）:上传自定义数据到指定目录

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题