华为云首页用户手册

AI开发平台MODELARTS-动态benchmark:Step1 获取数据集

AI开发平台MODELARTS-动态benchmark:Step1 获取数据集

时间：2024-04-30 18:09:32

AI开发平台MODELARTS

Step1 获取数据集

动态benchmark需要使用数据集进行测试，可以使用公开数据集，例如Alpaca、ShareGPT。也可以根据业务实际情况，使用generate_dataset.py脚本生成和业务数据分布接近的数据集。

公开数据集下载地址：

使用generate_dataset.py脚本生成数据集方法：

generate_dataset.py脚本通过指定输入输出长度的均值和标准差，生成一定数量的正态分布的数据。具体操作命令如下，可以根据参数说明修改参数。

cd benchmark_tools 
python generate_dataset.py --dataset custom_dataset.json --tokenizer /path/to/tokenizer \
--min-input 100 --max-input 3600 --avg-input 1800 --std-input 500 \
--min-output 40 --max-output 256 --avg-output 160 --std-output 30 --num-requests 1000

generate_dataset.py脚本执行参数说明如下：

--dataset：数据集保存路径，如custom_dataset.json
--tokenizer：tokenizer路径，可以是HuggingFace的权重路径
--min-input：输入tokens最小长度，可以根据实际需求设置。
--max-input：输入tokens最大长度，可以根据实际需求设置。
--avg-input：输入tokens长度平均值，可以根据实际需求设置。
--std-input：输入tokens长度方差，可以根据实际需求设置。
--min-output：最小输出tokens长度，可以根据实际需求设置。
--max-output：最大输出tokens长度，可以根据实际需求设置。
--avg-output：输出tokens长度平均值，可以根据实际需求设置。
--std-output：输出tokens长度标准差，可以根据实际需求设置。
--num-requests：输出数据集的数量，可以根据实际需求设置。

上一篇：AI开发平台MODELARTS-动态benchmark:Step2 使用数据集测试动态benchmark

下一篇：AI开发平台MODELARTS-动态benchmark:Step2 使用数据集测试动态benchmark

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-动态benchmark:Step1 获取数据集

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题