Основні поняття
注釈者が書く例文には、特定のパターンがあり、これが収集されたデータに影響を与える可能性があることを示す。
Анотація
この記事では、最近のNLUベンチマークでの指示バイアスに焦点を当てています。注釈者は、データ収集プロセスの初期段階で設計された注釈付けタスクの指示から生じるバイアスを持っている可能性があります。14のNLUベンチマークでこの形式のバイアスである「指示バイアス」を調査し、その影響について分析しています。指示バイアスは、モデルパフォーマンスを過大評価する可能性があります。
Introduction
- NLU進歩におけるベンチマークの重要性(Rogers et al., 2021; Bach et al., 2022; Wang et al., 2022)
- データ収集プロセスと指示バイアス(Geva et al., 2019)
Instruction Bias in NLU Benchmarks
- 指示バイアスとは何か?
- 研究質問:(a) 指示パターンはどれだけ顕著か? (b) それらはデータにどれだけ伝播するか?
Patterns in Crowdsourcing Instructions
- 指示例文から抽出された支配的なパターン(Tab. 1)
Instruction Bias Propagation to Datasets
- データセット内での指示パターンの頻度(Tab. 1)
- テストセットへの影響
The Effect of Instruction Examples on Pattern Frequency in Collected Data
- 指示例文が収集されたデータに与える影響(Eセクション)
Статистика
"MC-TACO (event duration)では3つの例文: (1) Jackがバスケットボールをどれくらいやったか?, (2) 彼が宿題をどれくらいやったか?, (3) ビザ取得までどれくらい時間がかかりましたか?"
"QUOREF ('名前は何ですか')では11個の例文"