本論文は、LLMの出力に含まれる事実を効率的に特定し、その根拠となる学習データを特定する手法「FASTTRACK」を提案している。
LLMは膨大な知識を吸収しているが、時に根拠のない出力を生み出すことがある。事実追跡は、LLMの出力に含まれる事実の根拠となる学習データを特定することで、この問題に取り組もうとするアプローチである。
従来の手法は、学習データと質問の類似性を評価することで事実の根拠を特定しようとしているが、単なる関連性と事実の根拠を区別できないという課題がある。また、大規模な学習データに対して計算コストが高いという問題もある。
本論文で提案するFASTTRACKは、2段階のアプローチを取る。まず、オフラインで学習データをセマンティッククラスタリングし、効率的な検索を可能にする。次に、オンラインで関連クラスタを特定し、LLMを用いて各候補データの事実支持度を評価する。
実験の結果、FASTTRACKは従来手法に比べて精度と効率性の両面で大幅な改善を示した。FTRACE-TRExデータセットでF1スコア0.72、VITAMINC
データセットでF1スコア0.91を達成し、最良の従来手法に比べて2倍以上の性能向上を示した。また、従来手法に比べて33倍高速であることも示された。
今後の課題としては、LLMの性能向上によりさらなる精度向上が期待できること、大規模データセットへの適用可能性の検討などが挙げられる。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Si Chen,Feiy... kl. arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.15157.pdfDybere Forespørgsler