Dieser Artikel stellt einen neuartigen Rahmen für die LLM-gestützte Informationsrückgewinnung vor, der die Leistung bestehender Retriever-Modelle signifikant verbessert. Der Schlüssel ist das "doc-level Embedding", das kontextuelle Informationen aus synthetischen Abfragen, Titeln und Textpassagen einbezieht. Dieses Embedding kann an verschiedene Retriever-Modellarchitekturen angepasst werden.
Die Autoren zeigen, dass dieser Ansatz state-of-the-art-Ergebnisse über verschiedene Modelle und Datensätze hinweg erzielt. Die Experimente zeigen, dass die synthetischen Abfragen oft die wichtigste Rolle bei der Verbesserung der Recall-Leistung spielen, während Titel und Textpassagen je nach Modell und Datensatz unterschiedlich wichtig sein können. Insgesamt liefert eine gewichtete Kombination mehrerer Dokumentenfelder im doc-level Embedding in den meisten Fällen die besten Ergebnisse.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Mingrui Wu,S... о arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.05825.pdfГлибші Запити