Die Autoren erweitern den Translate-Train-Ansatz zur Erstellung von ColBERT-X-Modellen für die CLIR-Aufgaben in den afrikanischen Sprachen Hausa, Somali, Swahili und Yoruba. Sie untersuchen den Einfluss verschiedener Feinabstimmungsschritte wie maschinelle Übersetzung, Sprachmodell-Feinabstimmung und domänenspezifische Feinabstimmung auf die Retrievalleistung.
Das HLTCOE-Team wendete verschiedene Methoden wie PLAID, einen mT5-Reranker und Dokumentenübersetzung auf den TREC 2023 NeuCLIR-Wettbewerb an, um die Leistung von MLIR- und CLIR-Systemen zu verbessern.
Das Hauptziel des TREC Neural Cross-Language Information Retrieval (NeuCLIR) Tracks ist es, die Auswirkungen neuronaler Ansätze auf die mehrsprachige Informationsrückgewinnung zu untersuchen.
Das vorgeschlagene EER-Modell verbessert die Leistung der Echtzeit-Suche, indem es die Aufmerksamkeit des Encoders auf die Ereignisinformationen in den Dokumenten lenkt und so das Problem des "semantischen Drifts" in bestehenden Embedding-basierten Rückgewinnungsmodellen angeht.
Durch die Anreicherung der Dokumenteneinbettung mit Hilfe von Large Language Models (LLM) kann die Leistung bestehender Retriever-Modelle deutlich verbessert werden.
Dieser Artikel untersucht verschiedene Methoden zur Bewertung von generativen Informationsrückgewinnungssystemen, bei denen die Antwort auf eine Suchanfrage nicht aus einer festen Sammlung von Dokumenten oder Passagen stammt, sondern ganz neu generiert wird.
Ein Ensemble-basierter Ansatz zur generativen Abfragereformulierung, der mehrere paraphrasierte Instruktionen nutzt, um effizientere Reformulierungen zu generieren und die Leistung der Informationsrückgewinnung zu verbessern.
BIRCO ist ein Benchmark, der die Fähigkeit von IR-Systemen bewertet, Dokumente unter Berücksichtigung mehrdimensionaler Benutzerziele abzurufen. Der Benchmark ist so konzipiert, dass er eine Herausforderung für LLM-basierte IR-Systeme darstellt.
Durch das Training eines spezialisierten Rankers auf kontextbezogen erweiterten schwierigen Abfragen und die Kombination seiner Ergebnisse mit einem Basisranker, der auf allen Abfragen trainiert wurde, lässt sich die Ranking-Leistung für schwierige Abfragen signifikant verbessern, ohne die Leistung für andere Abfragen zu beeinträchtigen.
Generatives Retrieval und Multi-Vektor-Dense-Retrieval teilen den gleichen Rahmen zur Messung der Relevanz eines Dokuments für eine Abfrage.