AI开发平台MODELARTS-动态benchmark:Step1 获取数据集

时间:2024-04-30 18:09:32

Step1 获取数据集

动态benchmark需要使用数据集进行测试,可以使用公开数据集,例如Alpaca、ShareGPT。也可以根据业务实际情况,使用generate_dataset.py脚本生成和业务数据分布接近的数据集。

公开数据集下载地址

使用generate_dataset.py脚本生成数据集方法:

generate_dataset.py脚本通过指定输入输出长度的均值和标准差,生成一定数量的正态分布的数据。具体操作命令如下,可以根据参数说明修改参数。

cd benchmark_tools 
python generate_dataset.py --dataset custom_dataset.json --tokenizer /path/to/tokenizer \
--min-input 100 --max-input 3600 --avg-input 1800 --std-input 500 \
--min-output 40 --max-output 256 --avg-output 160 --std-output 30 --num-requests 1000

generate_dataset.py脚本执行参数说明如下:

  • --dataset:数据集保存路径,如custom_dataset.json
  • --tokenizer:tokenizer路径,可以是HuggingFace的权重路径
  • --min-input:输入tokens最小长度,可以根据实际需求设置。
  • --max-input:输入tokens最大长度,可以根据实际需求设置。
  • --avg-input:输入tokens长度平均值,可以根据实际需求设置。
  • --std-input:输入tokens长度方差,可以根据实际需求设置。
  • --min-output:最小输出tokens长度,可以根据实际需求设置。
  • --max-output:最大输出tokens长度,可以根据实际需求设置。
  • --avg-output:输出tokens长度平均值,可以根据实际需求设置。
  • --std-output:输出tokens长度标准差,可以根据实际需求设置。
  • --num-requests:输出数据集的数量,可以根据实际需求设置。
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1575.html