Dieser Artikel stellt einen neuartigen Rahmen für die LLM-gestützte Informationsrückgewinnung vor, der die Leistung bestehender Retriever-Modelle signifikant verbessert. Der Schlüssel ist das "doc-level Embedding", das kontextuelle Informationen aus synthetischen Abfragen, Titeln und Textpassagen einbezieht. Dieses Embedding kann an verschiedene Retriever-Modellarchitekturen angepasst werden.
Die Autoren zeigen, dass dieser Ansatz state-of-the-art-Ergebnisse über verschiedene Modelle und Datensätze hinweg erzielt. Die Experimente zeigen, dass die synthetischen Abfragen oft die wichtigste Rolle bei der Verbesserung der Recall-Leistung spielen, während Titel und Textpassagen je nach Modell und Datensatz unterschiedlich wichtig sein können. Insgesamt liefert eine gewichtete Kombination mehrerer Dokumentenfelder im doc-level Embedding in den meisten Fällen die besten Ergebnisse.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Mingrui Wu,S... lúc arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.05825.pdfYêu cầu sâu hơn