핵심 개념
Annotators often make errors in labeling data, and distinguishing between annotation errors and human label variation is crucial for improving NLP benchmarks.
초록
人間のラベルのバリエーションとアノテーションエラーを区別することは、NLPベンチマークの向上に重要である。VARIERRデータセットは、エラーと人間のラベルバリエーションを分離するための新しい方法論を提供している。研究では、自己検証された注釈が注目されており、アノテーションエラー検出方法が従来の手法よりも優れていることが示されている。
통계
VARIERRには7,574件の有効性判断が含まれており、500件の再注釈されたNLIアイテムに対する1,933件の説明が含まれています。
GPT-4は最高のシステムであり、他のAED方法よりも優れたパフォーマンスを発揮しています。
인용구
"Human label variation arises when annotators assign different labels to the same item for valid reasons, while annotation errors occur when labels are assigned for invalid reasons."
"We find that state-of-the-art AED methods significantly underperform compared to GPTs and humans."
"Our methodology is applicable beyond NLI, offering fertile ground for future research on error versus plausible variation."