核心概念
言語モデルは生成コンテキストを検索コンテキストよりも過度に重視する傾向がある。これは、生成コンテキストの質問への類似性が高いことと、検索コンテキストの完全性が損なわれることが主な要因である。
要約
本研究は、言語モデルが生成コンテキストと検索コンテキストを統合する際の課題を明らかにすることを目的としている。
まず、生成コンテキストと検索コンテキストが矛盾する質問-コンテキストのデータセットを構築した。これにより、言語モデルの出力がどちらのコンテキストに由来するかを追跡できる。
実験の結果、GPT-4/3.5やLlama2といった言語モデルは、生成コンテキストを検索コンテキストよりも過度に重視する傾向が明らかになった。この偏りの主な要因として、以下の2点が明らかになった:
生成コンテキストは質問に高い類似性を示すため、選択される可能性が高い。
検索コンテキストの分割処理により、その完全性が損なわれ、言語モデルによる十分な活用が妨げられる。
一方で、言語モデルの内部知識との整合性(確認バイアス)は、この偏りの主要因ではないことが示された。
本研究の分析結果は、言語モデルによる多様なコンテキストの統合メカニズムの理解を深め、現行の言語モデル拡張手法の改善につながる重要な洞察を提供する。
統計
生成コンテキストと検索コンテキストを組み合わせた質問に対して、GPT-4は正解数が1200件減少した。
GPT-3.5は正解数が800件減少した。
Llama2-13bは正解数が600件減少した。
Llama2-7bは正解数が400件減少した。