Core Concepts
Die Studie evaluiert über 20 Transformer-Modelle zum Ranking von Langdokumenten und vergleicht deren Leistung mit einfachen FirstP-Basismodellen. Die Ergebnisse zeigen, dass Langdokument-Modelle auf Standardsammlungen nur geringfügige Verbesserungen gegenüber FirstP-Modellen erzielen, was auf einen Positionsbias relevanter Passagen in diesen Sammlungen zurückgeführt wird. Auf einer neuen synthetischen Sammlung, in der dieser Bias eliminiert wurde, zeigen fortschrittliche Langdokument-Modelle jedoch deutlich bessere Leistung.
Abstract
Die Studie evaluiert über 20 Transformer-Modelle zum Ranking von Langdokumenten, darunter sowohl Chunk-und-Aggregations-Modelle als auch Modelle, die lange Eingaben direkt unterstützen. Als Datensätze werden MS MARCO Documents v1/v2 und Robust04 sowie eine neue synthetische Sammlung MS MARCO FarRelevant verwendet.
Auf den Standardsammlungen zeigen die Langdokument-Modelle nur geringfügige Verbesserungen von maximal 5% gegenüber einfachen FirstP-Basismodellen, die Dokumente auf die ersten 512 Token beschränken. Dies wird auf einen Positionsbias relevanter Passagen in diesen Sammlungen zurückgeführt, da relevante Passagen tendenziell unter den ersten 512 Tokument eines Dokuments zu finden sind.
Um diese Hypothese zu überprüfen, wurde der MS MARCO FarRelevant-Datensatz erstellt, bei dem relevante Passagen nicht unter den ersten 512 Tokument eines Dokuments liegen. Auf diesem Datensatz zeigen sich dramatische Unterschiede zwischen den Modellen:
FirstP-Modelle liefern nur Zufallsleistung, sowohl im Zero-Shot- als auch im Fine-Tuning-Szenario.
Einfache Aggregationsmodelle wie MaxP und PARADE Attention haben zwar gute Zero-Shot-Genauigkeit, profitieren aber kaum vom Fine-Tuning.
Die meisten anderen Modelle haben zwar eine schlechte Zero-Shot-Leistung, übertreffen nach dem Fine-Tuning jedoch den MaxP-Baseline um bis zu 13-28%.
Dies deutet darauf hin, dass der Positionsbias nicht nur den Nutzen der Verarbeitung längerer Kontexte verringert, sondern auch zu einem Overfitting der Modelle auf diesen Bias führt, was sich in schlechter Zero-Shot-Leistung äußert, wenn sich die Verteilung relevanter Passagen stark ändert.
Insgesamt zeigt die Studie, dass fortschrittliche Langdokument-Ranking-Modelle auf Standardsammlungen nur begrenzt von längeren Kontexten profitieren, auf Datensätzen ohne Positionsbias jedoch deutlich bessere Leistung erzielen können.
Stats
Relevante Passagen befinden sich in MS MARCO-Dokumenten typischerweise unter den ersten 512 Token (ca. 86% der Fälle).
Auf MS MARCO FarRelevant liefern FirstP-Modelle nur Zufallsleistung, sowohl im Zero-Shot- als auch im Fine-Tuning-Szenario.
Quotes
"Unlike standard collections where we observed both little benefit from incorporating longer contexts and limited variability in model performance (within a few %), experiments on MS MARCO FarRelevant uncovered dramatic differences among models."
"Not only positional bias diminished benefits of processing longer document contexts, but also lead to models' overfitting to this bias and performing poorly in a zero-shot setting when the distribution of relevant passages changed substantially."