Dieser Artikel stellt einen neuartigen Rahmen für die LLM-gestützte Informationsrückgewinnung vor, der die Leistung bestehender Retriever-Modelle signifikant verbessert. Der Schlüssel ist das "doc-level Embedding", das kontextuelle Informationen aus synthetischen Abfragen, Titeln und Textpassagen einbezieht. Dieses Embedding kann an verschiedene Retriever-Modellarchitekturen angepasst werden.
Die Autoren zeigen, dass dieser Ansatz state-of-the-art-Ergebnisse über verschiedene Modelle und Datensätze hinweg erzielt. Die Experimente zeigen, dass die synthetischen Abfragen oft die wichtigste Rolle bei der Verbesserung der Recall-Leistung spielen, während Titel und Textpassagen je nach Modell und Datensatz unterschiedlich wichtig sein können. Insgesamt liefert eine gewichtete Kombination mehrerer Dokumentenfelder im doc-level Embedding in den meisten Fällen die besten Ergebnisse.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問