华为云首页用户手册

AI开发平台MODELARTS-准备数据（可选）:上传自定义数据到指定目录

AI开发平台MODELARTS-准备数据（可选）:上传自定义数据到指定目录

时间：2024-12-09 20:36:33

AI开发平台MODELARTS

上传自定义数据到指定目录

将下载的原始数据存放在{work_dir}/llm_train/LLaMAFactory/LLaMA-Factory/data目录下。具体步骤如下：

进入到/home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data目录下。
```
cd  /home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data
```
将自定义原始数据（指令监督微调样例数据集：alpaca_gpt4_data.json）按照下面的数据存放目录要求放置。

指令微调样例数据集alpaca_gpt4_data.json的下载链接：https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json

数据存放参考目录结构如下：
```
${workdir}（例如/home/ma-user/ws/llm_train ）
  |── LLaMAFactory/data
       |── alpaca_en_demo.json                   # 代码原有数据集
       |── identity.json                         # 代码原有数据集
       ...
       |── alpaca_gpt4_data.json                 # 自定义数据集
```
更新代码目录下data/dataset_info.json文件。如使用以下示例数据集则命令如下。关于数据集文件格式及配置，更多样例格式信息请参考data/README_zh.md 的内容。
```
vim dataset_info.json
```
新加配置参数如下：
```
"alpaca_gpt4_data": {
    "file_name": "alpaca_gpt4_data.json"
  },
```
样例截图：

上一篇：AI开发平台MODELARTS-执行训练任务:步骤二修改训练yaml文件配置

下一篇：AI开发平台MODELARTS-准备镜像环境:步骤三启动容器镜像

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-准备数据（可选）:上传自定义数据到指定目录

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题