本文介绍了MAFALDA,这是一个用于谬论分类的基准数据集。它整合了之前的谬论数据集,并提出了一个统一的谬论分类体系。此外,本文还提供了手工注释的数据集,以及针对主观性的新注释方案和评估方法。最后,本文评估了几种语言模型和人类在该基准上的性能。