核心概念
大規模言語モデルにおいて、外部情報の信頼性を考慮することで、より正確で信頼性の高い出力を生成することができる。
摘要
本論文は、大規模言語モデルにおける信頼性の高い生成の重要性について述べている。
- 大規模言語モデルは外部情報を活用することで知識の欠如や幻覚を軽減できるが、検索時に得られる情報の質が低い場合、出力の信頼性が低下する問題がある。
- そこで本論文では、Credibility-aware Generation (CAG)と呼ばれる新しいフレームワークを提案する。CAGは、外部情報の信頼性を考慮して生成を行うことで、より正確で信頼性の高い出力を生成することができる。
- CAGの実現には、データ変換フレームワークを用いて、信頼性情報を含むデータセットを構築し、モデルに信頼性を考慮する能力を持たせる必要がある。
- さらに、信頼性を考慮した生成の有効性を検証するため、オープンドメインQA、時系列QA、偽情報に汚染されたQAの3つのシナリオからなる包括的なベンチマークを構築した。
- 実験の結果、提案手法は従来手法に比べて大幅な性能向上を示し、信頼性の高い生成が可能であることが確認された。また、ノイズの多い状況でも頑健な性能を維持することができた。
- 本手法は、ユーザ嗜好に応じた個別化された応答生成や、知識の矛盾解決など、様々な応用が期待できる。
统计
大規模言語モデルは外部情報の質の低さにより、出力の信頼性が低下する。
時系列の変化や偽情報の存在により、大規模言語モデルは正確な情報を見極めることが困難である。
過去のテキストデータに基づいて学習されたモデルは、時代遅れの情報を好む傾向がある。
引用
"The rapid development of large language models has led to the widespread adoption of Retrieval-Augmented Generation (RAG), which integrates external knowledge to alleviate knowledge bottlenecks and mitigate hallucinations."
"However, the existing RAG paradigm inevitably suffers from the impact of flawed information introduced during the retrieval phrase, thereby diminishing the reliability and correctness of the generated outcomes."