Core Concepts
Das Hauptziel des TREC Neural Cross-Language Information Retrieval (NeuCLIR) Tracks ist es, die Auswirkungen neuronaler Ansätze auf die mehrsprachige Informationsrückgewinnung zu untersuchen.
Abstract
Der TREC NeuCLIR-Track wurde entwickelt, um auf drei Faktoren zu reagieren: 1) Neuronale Algorithmen haben eine deutlich verbesserte Rankingeffektivität gezeigt, aber die Anwendung neuronaler Techniken in der mehrsprachigen Informationsrückgewinnung (CLIR) wurde noch nicht vollständig charakterisiert. 2) Computersysteme wie Tokenisierung und Einbettungen sind für viele Sprachen verfügbar, aber CLIR stellt zusätzliche Herausforderungen dar, die noch nicht vollständig angegangen wurden. 3) Frühere TREC-artige CLIR-Testsammlungen sind im Vergleich zu aktuellen einsprachigen Rankingsammlungen klein, und die Relevanzurteile wurden nur durch Pooling von vor-neuronalen CLIR-Modellen entwickelt.
Der Track umfasst fünf Aufgaben: 1) CLIR für Nachrichten mit englischen Themen und Dokumenten in Chinesisch, Persisch oder Russisch. 2) Neueinführung der Rankingaufgabe, bei der Systeme eine vorgegebene Rangliste von 1.000 Dokumenten neu ordnen müssen. 3) Einsprachiges Ranking in den Zielsprachen als Baseline. 4) Eine neue mehrsprachige Informationsrückgewinnung (MLIR)-Aufgabe, bei der Systeme eine einheitliche Rangliste für Dokumente in allen drei Sprachen erstellen müssen. 5) Eine neue technische Dokumente CLIR-Pilotaufgabe, bei der englische Themen verwendet werden, um chinesische Dissertationsabstracts zu durchsuchen.
Insgesamt wurden 220 Läufe von sechs teilnehmenden Teams und Basissystemen der Koordinatoren eingereicht. Die Ergebnisse zeigen, dass die CLIR-Läufe die einsprachigen Läufe deutlich übertreffen, was darauf hindeutet, dass mehr Aufwand in die CLIR-Systementwicklung investiert wurde. Die MLIR-Ergebnisse zeigen, dass die Verwendung von Großsprachmodellen wie GPT-4 für das Reranking sehr effektiv ist, aber die Fairness zwischen den Sprachen noch Verbesserungspotenzial hat.
Stats
Die Dokumentensammlung umfasst etwa 2 Millionen persische, 3 Millionen chinesische und fast 5 Millionen russische Dokumente aus den Jahren 2016 bis 2021.
Es wurden 62 chinesische, 60 persische, 62 russische und 65 MLIR-Themen für die Auswertung verwendet.
Für die technischen Dokumente CLIR-Aufgabe wurden 40 Themen verwendet.
Quotes
"Das Hauptziel des TREC Neural Cross-Language Information Retrieval (NeuCLIR) Tracks ist es, die Auswirkungen neuronaler Ansätze auf die mehrsprachige Informationsrückgewinnung zu untersuchen."
"Neuronale Algorithmen haben eine deutlich verbesserte Rankingeffektivität gezeigt, aber die Anwendung neuronaler Techniken in der mehrsprachigen Informationsrückgewinnung (CLIR) wurde noch nicht vollständig charakterisiert."
"Frühere TREC-artige CLIR-Testsammlungen sind im Vergleich zu aktuellen einsprachigen Rankingsammlungen klein, und die Relevanzurteile wurden nur durch Pooling von vor-neuronalen CLIR-Modellen entwickelt."