Shah, K., Goyal, A., & Wasserman, I. (2024). Enhancing Retrieval in QA Systems with Derived Feature Association. arXiv preprint arXiv:2410.03754.
本研究は、質問応答(QA)システム、特にRetrieval Augmented Generation (RAG)システムにおけるコンテキスト検索の精度向上を目的とする。従来のRAGシステムは、質問とテキストの埋め込みコサイン類似度やBM25を用いて関連性を測定するため、明示的に答えが書かれていない質問への対応が課題であった。本研究では、LLMを用いて生成した派生特徴を用いることで、この課題を解決することを目指す。
本研究では、Retrieval from AI Derived Documents (RAIDD)と呼ばれる新しいフレームワークを提案する。RAIDDは、文書の取り込み時にLLMを用いて要約や質問などの派生特徴を生成し、それらをベクトルデータベースに保存する。質問時には、クエリと派生特徴をマッチングさせ、関連性の高い原文を検索する。具体的には、RAIDD-S (要約ベース)、RAIDD-Q (質問ベース)、RAIDD-U (要約と質問の組み合わせ) の3つのバリエーションを提案し、それぞれの特徴を検証した。
LooGLEデータセットを用いた実験の結果、RAIDDは従来のRAGシステムと比較して、質問応答の精度において最大15%の向上を示した。特に、RAIDD-Uは、要約と質問の両方の利点を組み合わせることで、最も高い精度を達成した。
本研究では、LLMを用いた派生特徴が、RAGシステムのコンテキスト検索の精度向上に有効であることを示した。RAIDDは、従来のRAGシステムの制限を克服し、より複雑な質問に対して正確な回答を提供できる可能性を示唆している。
本研究は、LLMを用いた派生特徴が、RAGシステムの性能向上に大きく貢献することを示した点で意義深い。RAIDDは、QAシステムの精度向上だけでなく、LLMの新しい応用先としても期待される。
今後の課題としては、様々なドメインやタスクに適した派生特徴の生成方法の検討や、より高度なLLMを用いた場合の性能評価などが挙げられる。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Keyush Shah,... a las arxiv.org 10-08-2024
https://arxiv.org/pdf/2410.03754.pdfConsultas más profundas