Core Concepts
Durch die Verwendung von Pseudo-Relevanz-Labeling können dichte Retrievalmodelle ihre Leistung auf Zieldomänen verbessern, ohne auf manuell erstellte Annotationen angewiesen zu sein.
Abstract
Die Studie untersucht, wie man von bestehenden IR-Reranking-Modellen, die auf MS MARCO trainiert wurden, profitieren kann, um Pseudo-Relevanz-Labels für eine nicht annotierte Zielkollektion zu generieren. Diese Labels werden zusammen mit ausgewählten positiven und negativen Beispielen verwendet, um dichte Retrievalmodelle auf der Zielkollektion feinabzustimmen.
Die Experimente zeigen, dass die sorgfältige Generierung von Pseudo-Labels die Generalisierungsleistung von DR-Modellen verbessert und dass zusätzliche Verbesserungen durch den Pseudo-Abfrage-Ansatz von GPL erzielt werden können. Verschiedene Strategien zum Sampling von negativen Beispielen, basierend auf BM25 und SimANS, wurden untersucht, wobei die Bedeutung der Identifizierung nützlicher schwieriger negativer Dokumente bestätigt wurde.
Der vorgeschlagene Pseudo-Relevanz-Labeling-Ansatz wurde auch auf CDR-Modelle für die konversationelle Suche angewendet. Insbesondere wurde ein Modul zur Umformulierung von Abfragen integriert, das T5-Large nutzt, um mit konversationellen Abfragen umzugehen, und sich auf Pseudo-Relevanz-Labels stützt, die unter Verwendung von T5-3B und SimANS auf den umformulierten Abfragen generiert wurden. Die Experimente zeigten, dass dieser Ansatz zu state-of-the-art-CDR-Modellen für die Domänenanpassung führt.
Insgesamt hat sich der einfache Labelingansatz, der echte Abfragen und Dokumente der Zieldomäne nutzt und mit Abfragegenerierung oder Abfrageumformulierung kombiniert wird, als sehr effektiv erwiesen, um ein DR- oder CDR-Modell an neue Domänen anzupassen oder weiter zu verbessern.
Stats
Die durchschnittliche Entfernung des Mondes von der Erde beträgt etwa 384.400 km.
Der Mond entfernt sich von der Erde mit einer Rate von etwa 4 cm pro Jahr.
Neil Armstrong war der erste Mensch, der den Mond betrat.
Quotes
"Recent studies have demonstrated that the ability of dense retrieval models to generalize to target domains with different distributions is limited, which contrasts with the results obtained with interaction-based models."
"To accomplish this, a T5-3B model is utilized for pseudo-positive labeling, and meticulous hard negatives are chosen."
"This proposed approach enables a model's domain adaptation with real queries and documents from the target dataset."