本研究では、長文脈モデルの理解能力と忠実性を評価するための包括的なベンチマーク「L-CiteEval」を提案した。L-CiteEvalは11のタスクから構成され、文脈長は8Kから48Kトークンまでの範囲をカバーしている。自動評価スイートを備えており、再現性の高い評価が可能である。
実験の結果、オープンソースの長文脈モデルはクローズドソースのモデルに比べて引用の正確性と網羅性が大幅に劣っていることが明らかになった。これは、現在のオープンソースの長文脈モデルが文脈ではなく自身の内在的知識に基づいて応答する傾向にあり、実用アプリケーションにおいて重大なリスクをもたらすことを示唆している。
一方で、RAG手法を活用することで、オープンソースモデルの忠実性を大幅に改善できることが分かった。ただし、生成品質にはわずかな低下が見られた。さらに、モデルの注意メカニズムと引用生成プロセスの相関関係を分析し、引用生成プロセスを通じてモデルの文脈活用能力を検証できることを示した。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Zecheng Tang... a las arxiv.org 10-04-2024
https://arxiv.org/pdf/2410.02115.pdfConsultas más profundas