要約
オープンドメイン質問応答(ODQA)リトリーバルシステムは、適切でないテキスト抜粋を提供することがあり、無関係なテキスト抜粋を特定することに焦点を当てた例が不足している。これに対処するため、ランダムなテキスト抜粋とペアリングされた質問でモデルを訓練するアプローチの効果を調査しました。この方法では、高い意味的オーバーラップを持つ無関係なテキスト抜粋に対してモデルがほぼ完璧な正解率(約100%)を達成しました。
また、モデルが回答しないよう訓練された場合、実際には困難で現実的である場合にどのように一般化するかも検討しました。さらに、モデルが必要な証拠を提供されていない場合にどのような種類の回答を生成するかも調査しました。結果として、ランダムなテキスト抜粋や意味的関連性のある抜粋でのモデルの振る舞いや確信バイアスについて洞察が得られました。
統計
98%から1%まで予測精度が低下した。
SQuAD 2.0データセットから取得した回答不能ペアを活用してほぼ完璧(≈100%)な正解率を達成した。
引用
"Retrieval systems can behave sup-optimally and provide relevant documents without an answer to a given question – it is important for models to recognize when this happens and abstain from answering."
"By training our models on such data points, we were able to achieve near-perfect performance on ChatGPT-generated texts of varying relevance."