AI开发平台MODELARTS-准备数据(可选):上传自定义数据到指定目录
上传自定义数据到指定目录
将下载的原始数据存放在{work_dir}/llm_train/LLaMAFactory/LLaMA-Factory/data目录下。具体步骤如下:
- 进入到/home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data目录下。
cd /home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data
- 将自定义原始数据(指令监督微调样例数据集:alpaca_gpt4_data.json)按照下面的数据存放目录要求放置。
指令微调样例数据集alpaca_gpt4_data.json的下载链接:https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json
数据存放参考目录结构如下:
${workdir}(例如/home/ma-user/ws/llm_train ) |── LLaMAFactory/data |── alpaca_en_demo.json # 代码原有数据集 |── identity.json # 代码原有数据集 ... |── alpaca_gpt4_data.json # 自定义数据集
- 更新代码目录下data/dataset_info.json文件。如使用以下示例数据集则命令如下。关于数据集文件格式及配置,更多样例格式信息请参考data/README_zh.md 的内容。
vim dataset_info.json
新加配置参数如下:
"alpaca_gpt4_data": { "file_name": "alpaca_gpt4_data.json" },
样例截图:
- ModelArts模型训练_创建训练作业_如何创建训练作业
- GaussDB数据库自定义函数_GaussDB 华为_高斯数据库自定义函数
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云
- ModelArts推理部署_模型_AI应用来源-华为云
- ModelArts推理部署_OBS导入_模型包规范-华为云
- 华为云资料 2021年 4月刊
- 华为GaussDB自定义函数_GaussDB教程_华为高斯数据库自定义函数
- ModelArts模型训练_模型训练简介_如何训练模型
- ModelArts模型训练_超参搜索简介_超参搜索算法
- ModelArts自动学习是什么_自动学习简介_零代码完成AI开发