Core Concepts
MixRED ist der erste menschlich annotierte Datensatz für Beziehungsextraktion in mehrsprachigen Kontexten, der die Herausforderungen des Code-Switching adressiert und die Leistungsfähigkeit bestehender Modelle in diesem neuartigen Szenario untersucht.
Abstract
Der Artikel führt MixRED, einen neuartigen Datensatz für Beziehungsextraktion in mehrsprachigen Kontexten, ein. Im Gegensatz zu bestehenden Datensätzen, die sich auf einsprachige oder übersetzungsbasierte mehrsprachige Szenarien konzentrieren, adressiert MixRED den Code-Switching-Kontext, bei dem Individuen Inhalte aus verschiedenen Sprachen innerhalb eines Dokuments mischen.
Zur Erstellung von MixRED entwickelten die Autoren ein systematisches Rahmenwerk, das verschiedene Mischebenen (Satz-, Wort- und Entitätsebene) und unterschiedliche Sprachkonzentrationen berücksichtigt, um die Herausforderungen des mehrsprachigen Kontexts abzubilden. Der Datensatz wurde von erfahrenen zweisprachigen Annotatoren sorgfältig überprüft und verfeinert, um eine hohe Qualität sicherzustellen.
Darüber hinaus führten die Autoren umfangreiche Experimente durch, um die Leistung verschiedener state-of-the-art-Modelle, einschließlich überwachter Modelle und großer Sprachmodelle (LLMs), auf MixRED zu untersuchen. Die Ergebnisse zeigen, dass die mehrsprachigen Modelle in diesem neuartigen Szenario Vorteile gegenüber den einsprachigen Modellen aufweisen. Darüber hinaus identifizieren die Autoren Faktoren wie Mischebenen und Sprachkonzentrationen, die die Modellleistung beeinflussen, und erkunden vielversprechende Ansätze zur Verbesserung der LLM-Leistung, wie die Verwendung mehrsprachiger Beispiele und Chain-of-Thoughts.
Insgesamt stellt MixRED einen wichtigen Schritt in Richtung eines besseren Verständnisses der Beziehungsextraktion in mehrsprachigen Kontexten dar und bietet wertvolle Erkenntnisse für zukünftige Forschung in diesem Bereich.
Stats
Die durchschnittliche Dokumentlänge in MixRED beträgt 444 Wörter, was deutlich höher ist als in anderen Datensätzen wie DocRED (198 Wörter).
Die Verteilung der Beziehungstypen in MixRED ist ausgewogener als in anderen Datensätzen, bei denen die Top-20%-Beziehungen einen Großteil der Beziehungstriple ausmachen.
MixRED enthält im Durchschnitt 2,1 Erwähnungen pro Entität, was höher ist als in anderen Datensätzen.
Quotes
"MixRED steht als der erste dokumentbasierte RE-Datensatz da, der sowohl die chinesische als auch die englische Sprache umfasst."
"Die Ergebnisse zeigen, dass die mehrsprachigen Modelle in diesem neuartigen Szenario Vorteile gegenüber den einsprachigen Modellen aufweisen."