AI开发平台MODELARTS-推理精度测试:Step2 查看精度测试结果

时间:2024-11-12 16:42:22

Step2 查看精度测试结果

默认情况下,评测结果会按照result/{service_name}/{eval_dataset}-{timestamp} 的目录结果保存到对应的测试工程。执行多少次,则会在{service_name}下生成多少次结果。

单独的评测结果如下:

{eval_dataset}-{timestamp}  # 例如: mmlu-20240205093257 
├── accuracy   
│   ├── evaluation_accuracy.xlsx  # 测试的评分结果,包含各个学科数据集的评分和总和评分。 
├── infer_info 
│   ├── xxx1.csv # 单个数据集的评测结果 
│   ├── ...... 
│   ├── xxxn.csv # 单个数据集的评测结果 
├── summary_result 
│   ├── answer_correct.xlsx  # 回答正确的结果 
│   ├── answer_error.xlsx  # 保存回答了问题的选项,但是回答结果错误 
│   ├── answer_result_unknow.xlsx  # 保存未推理出结果的问题,例如超时、系统错误 
│   ├── system_error.xlsx  # 保存推理结果,但是可能答非所问,无法判断是否正确,需要人工判断进行纠偏。
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1971.html