Core Concepts
長文脈LLMは、詳細な文レベルの引用を伴う正確な応答を生成することができる。
Abstract
本研究は、長文脈LLMの質問応答能力を向上させるための取り組みを紹介している。
まず、長文脈質問応答における引用(LQAC)タスクのベンチマーク「LongBench-Cite」を提案し、現行のLLMがこのタスクで十分な性能を発揮できていないことを明らかにした。
次に、「CoF」と呼ばれる新しいパイプラインを提案した。CoFは、既存のLLMを活用して長文脈QAインスタンスに文レベルの詳細な引用を自動的に付与することができる。これにより、大規模なLQAC用のSFTデータセット「LongCite-45k」を構築した。
最後に、LongCite-45kデータセットを用いてLLMの微調整を行い、LongCite-8BおよびLongCite-9Bモデルを開発した。これらのモデルは、長文脈の中から正確な応答と詳細な文レベルの引用を同時に生成することができる。評価の結果、LongCite-8B/9Bは既存の大規模プロプライエタリモデルを上回る引用品質を達成した。さらに、LQACデータでの微調整は応答の正確性も向上させることが分かった。
Stats
長文脈LLMは、長文脈質問応答タスクにおいて、引用の正確性と詳細さが不足している。
CoFパイプラインを用いて構築したLongCite-45kデータセットを使った微調整により、LongCite-8BおよびLongCite-9Bモデルは、既存の大規模プロプライエタリモデルを上回る引用品質を達成した。
LQACデータでの微調整は、応答の正確性も向上させることが分かった。
Quotes
"Though current long-context large language models (LLMs) have demonstrated impressive capacities in answering user questions based on extensive text, the lack of citations in their responses makes user verification difficult, leading to concerns about their trustworthiness due to their potential hallucinations."
"To overcome the above limitations, this work explores directly employing long-context LLMs to generate accurate responses with fine-grained sentence-level in-line citations."
"Evaluation on LongBench-Cite indicates that our trained models achieve significantly better citation quality compared to even much larger proprietary models."