FrontierMath评测翻车,近1/3题有致命错误

Epoch AI那边发了消息,说用AI辅助复查FrontierMath的1-4级,结果标出来差不多三分之一的问题有致命错误,而且他们觉得大部分标得对。等人工彻底复查完,会用修正后的数据集更新分数。

绷不住了,这错误率有点高啊。

这东西就那样,早就料到会有问题。

小白问一下,是不是所有数学评测的数据集都可能有问题?我不太确定这类错误会不会影响日常使用…

哈哈又来这种帖子了,下次是不是又要换个数据集重新刷榜,反正最后都是公关稿洗地。

Mark一下,等更新。

我上次用类似数据集训练模型,发现几何证明题里图形标注经常错,比如把垂足标到边上另一个点,模型就直接学歪了。后来手动筛了五百多题才稍微好点,所以现在看到这种大规模标错一点不意外,只是三分之一确实夸张了。

想追问一下,他们说的“致命错误”具体是指题干条件矛盾、答案错,还是解析步骤有问题?有没有例子能看看?

评测集规模一大就难校对,正常

高难度题集普遍标注质量都不行,专业评测好点