Core Concepts
Das HLTCOE-Team wendete verschiedene Methoden wie PLAID, einen mT5-Reranker und Dokumentenübersetzung auf den TREC 2023 NeuCLIR-Wettbewerb an, um die Leistung von MLIR- und CLIR-Systemen zu verbessern.
Abstract
Das HLTCOE-Team beteiligte sich an allen Aufgaben des NeuCLIR 2023-Wettbewerbs. Obwohl offiziell alle Läufe als manuell gekennzeichnet waren, da die Autoren als Organisatoren einige der Themen erstellt hatten, hatten nur die "Datums"-Läufe, bei denen Datumsinformationen zu jedem Thema hinzugefügt wurden, direkten manuellen Input.
Im Allgemeinen übertrafen die mit mT5 nachgerankten Läufe die End-to-End-Neuronalansätze, die wiederum die Sparse-Retrieval-Modelle übertrafen. Zu den Forschungsrichtungen für die Zukunft gehören weitere Untersuchungen zur Rolle von Daten in Themen sowie die Erkundung anderer Trainingsstrategien für MLIR.
Für die CLIR-Aufgaben waren die Translate-Distill-Modelle (c2) deutlich besser als die mit Translate-Train trainierten ColBERT-X-Modelle (c6). Die mT5-destillierten Modelle übertrafen auch das monolinguale ColBERT-Modell, das die übersetzten Dokumente indexiert (c4). Das deutet darauf hin, dass die Übersetzung der Abfragen gut ist und das Training suboptimal war.
Für die MLIR-Aufgabe erwiesen sich die Multilingual Translate-Train (MTT) ColBERT-X-Modelle (m1, m2) als am effektivsten. Sie übertrafen den englischen ColBERTv2-Lauf, der die übersetzten Dokumente indexiert (m3), was eine einheitliche Plattform zum Vergleich von Scores über Dokumente aus verschiedenen Sprachen hinweg bietet.
Für die technischen Dokumentenaufgaben war der mT5-Kreuzencoder (t1, t2) den Bi-Encodern (t3, t6-t12) überlegen, genau wie im Nachrichtenbereich. Allerdings war in diesem Fall das Nachranking des BM25-Dokumentübersetzungslaufs (t18) effektiver als das Nachranking des PLAID-Übersetzungstraining-Laufs (t7) für nDCG@20, obwohl PLAID-Übersetzungstraining ohne Nachranking in beiden Maßen besser abschnitt als Dokumentübersetzung BM25.
Stats
Die Translate-Distill-Modelle (c2) waren deutlich besser als die mit Translate-Train trainierten ColBERT-X-Modelle (c6).
Die mT5-destillierten Modelle übertrafen auch das monolinguale ColBERT-Modell, das die übersetzten Dokumente indexiert (c4).
Die Multilingual Translate-Train (MTT) ColBERT-X-Modelle (m1, m2) waren am effektivsten für die MLIR-Aufgabe.
Für die technischen Dokumentenaufgaben war der mT5-Kreuzencoder (t1, t2) den Bi-Encodern (t3, t6-t12) überlegen.
Das Nachranking des BM25-Dokumentübersetzungslaufs (t18) war effektiver als das Nachranking des PLAID-Übersetzungstraining-Laufs (t7) für nDCG@20.
Quotes
Keine relevanten Zitate gefunden.