Conceitos essenciais
本文介绍了MAFALDA,这是一个用于谬论分类的基准数据集。它整合了之前的谬论数据集,并提出了一个统一的谬论分类体系。此外,本文还提供了手工注释的数据集,以及针对主观性的新注释方案和评估方法。最后,本文评估了几种语言模型和人类在该基准上的性能。
Resumo
本文主要包含以下几个部分:
引言:
谬论是一种错误或无效的推理方式,可以出现在各种形式的交流中,如演讲、广告、社交媒体等。
检测和识别这些谬论是一项重要的任务。近年来,深度学习和更多数据的可用性促进了自动检测和分类谬论的方法。
但现有工作存在一些问题,如关注特定类型的语料或特定类型的谬论,缺乏共同的术语,以及没有考虑注释的主观性。
统一的谬论分类体系:
本文提出了一个新的谬论分类体系,将现有的谬论类型进行了整合和统一。
该体系分为三个层级:第0层为二分类(是否存在谬论),第1层为亚里士多德提出的三大类(情感诉求、信誉谬论、逻辑谬论),第2层为具体的谬论类型。
每种谬论都有正式和非正式的定义。
主观性注释方案:
谬论注释是一项主观的任务,不同的注释者可能会给出不同的标注。
本文提出了一种"二元注释方案",允许对同一文本段落给出多个等价的标注。
这种方案明确地接受了注释的主观性,而不是试图消除它。
MAFALDA数据集:
该数据集整合了4个现有的谬论数据集,包含9,745个文本。
本文手工注释了200个文本,共260个谬论实例,并提供了每个注释的解释。
实验:
在零样本学习设置下,评估了12个开源语言模型和ChatGPT在该基准上的性能。
结果显示,大型语言模型在第0层分类上表现良好,但在第1层和第2层分类上仍存在挑战。
此外,人类注释者的表现优于语言模型,表明这是一个具有挑战性的任务。
总之,本文提出了一个全面的谬论检测和分类基准数据集MAFALDA,并探讨了主观性注释和语言模型在该任务上的表现。
Estatísticas
"我们知道上帝存在,因为他创造了一切。"
(a) 循环论证
"在上次新罕布什尔州初选中,我最喜欢的候选人获胜。因此,他也将赢得下一次初选。"
(c) 简单因果关系 或 虚假因果关系
"标题:我能否凭借法学学位进入金融业?
帖子:(...) 这就是法学院学生的傲慢。为什么不去当大脑外科医生?"
(d) 贬低论证