AI开发平台MODELARTS-数据处理:数据处理具体操作

时间：2024-04-30 18:09:30

AI开发平台MODELARTS

数据处理具体操作

SFT全参微调数据处理具体操作步骤如下。

将获取到的SFT全参微调数据集上传到/home/ma-user/ws/datasets/目录中。

创建处理后的数据存放目录/home/ma-user/ws/datasets/alpaca-ft/llama2-13B/。

cd /home/ma-user/ws/datasets  #进入/home/ma-user/ws/datasets目录
mkdir -p alpaca-ft/llama2-13B   #创建alpaca-ft/llama2-13B目录

进入代码目录“/home/ma-user/ws/AscendCloud-3rdLLM-6.3.902/llm_train/AscendSpeed/ModelLink/”，在代码目录中执行preprocess_data.py脚本处理数据。

此处提供一段实际的数据处理代码示例如下。

export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/AscendCloud-3rdLLM-6.3.902/llm_train/AscendSpeed/ModelLink/
python tools/preprocess_data.py  \
	 --input /home/ma-user/ws/datasets/data/alpaca_data.json \
     --output-prefix /home/ma-user/ws/datasets/alpaca-ft/llama2-13b/alpaca-ft \
     --tokenizer-type PretrainedFromHF \
     --tokenizer-name-or-path /home/ma-user/ws/tokenizers/llama2-13b-hf \
     --tokenizer-not-use-fast \
     --handler-name GeneralInstructionHandler

数据处理完后，在/home/ma-user/ws/datasets/alpaca-ft/llama2-13B/目录下生成转换后的数据文件。

上一篇：AI开发平台MODELARTS-准备镜像:Step3 启动容器镜像

下一篇：AI开发平台MODELARTS-数据处理:数据预处理