Core Concepts
LLMの内部知識(プライオア)と検索結果の情報の間には緊張関係があり、LLMはプライオアが弱い場合に検索結果の誤情報を再現する傾向がある一方で、プライオアが強い場合はそれを無視する傾向がある。
Abstract
本研究では、LLMの検索結果利用(RAG)における信頼性を定量的に分析した。主な発見は以下の通り:
RAGによる正答率の向上(94%)は期待通りだが、検索結果が誤情報の場合、LLMはプライオアに頼る傾向(20%)がある。
LLMのプライオア確率が高いほど、RAG情報を採用する確率が低くなる。プライオア確率と検索結果の乖離が大きいほど、LLMはプライオアを選好する。
プロンプトの書き方によって、LLMのRAG選好度合いが変わる。厳格なプロンプトでは検索結果への依存度が高く、緩やかなプロンプトでは低くなる。
これらの結果は、LLMの内部知識と外部情報の間の緊張関係を示しており、RAGシステムの信頼性評価の重要性を示唆している。特に、医療や法律など重要な分野での利用においては、LLMの振る舞いを十分に理解しておく必要がある。
Stats
LLMの正答率はプライオアでは34.7%だが、RAGを使うと94%に上昇する。
プライオア確率が10%上がると、RAG選好率は2.3%低下する。
検索結果の値が1桁以上プライオアから乖離すると、LLMはプライオアを選好する傾向が強くなる。
Quotes
"RAGシステムは、LLMの誤認識を修正し、最新の知識を提供するために広く使われている。しかし、LLMが単独で質問に誤って答える場合、正しい検索結果を提供するだけで必ずしもエラーを修正できるわけではない。"
"逆に、検索結果が誤っている場合、LLMはその間違った情報を無視できるのか、それとも再現してしまうのか?"