AI开发平台MODELARTS-推理精度测试:Step2 查看精度测试结果

时间：2025-03-03 21:38:04

AI开发平台MODELARTS

Step2 查看精度测试结果

默认情况下，评测结果会按照result/{service_name}/{eval_dataset}-{timestamp} 的目录结果保存到对应的测试工程。执行多少次，则会在{service_name}下生成多少次结果。

单独的评测结果如下：

{eval_dataset}-{timestamp}  # 例如: mmlu-20240205093257 
├── accuracy   
│   ├── evaluation_accuracy.xlsx  # 测试的评分结果，包含各个学科数据集的评分和总和评分。 
├── infer_info 
│   ├── xxx1.csv # 单个数据集的评测结果 
│   ├── ...... 
│   ├── xxxn.csv # 单个数据集的评测结果 
├── summary_result 
│   ├── answer_correct.xlsx  # 回答正确的结果 
│   ├── answer_error.xlsx  # 保存回答了问题的选项，但是回答结果错误 
│   ├── answer_result_unknow.xlsx  # 保存未推理出结果的问题，例如超时、系统错误 
│   ├── system_error.xlsx  # 保存推理结果，但是可能答非所问，无法判断是否正确，需要人工判断进行纠偏。

上一篇：AI开发平台MODELARTS-推理精度测试:Step1 执行精度测试

下一篇：AI开发平台MODELARTS-推理精度测试:Step1 执行精度测试