Core Concepts
Die Verwendung von durch kontrastives Lernen fein abgestimmten Satzeinbettungen verbessert die Leistung bei Clustering- und Klassifizierungsaufgaben im Vergleich zu nicht fein abgestimmten Einbettungen.
Abstract
Die Studie befasst sich mit der Generierung von satzbasierten Einbettungen wissenschaftlicher Artikel unter Verwendung von kontrastivem Lernen. Dafür wurden drei Datensätze verwendet: CSAbstruct aus dem Bereich Informatik sowie PubMed-RCT 20k und PMC-Sents-FULL aus dem medizinischen Bereich.
Die Autoren fein abgestimmte Satz-Transformer-Modelle (SciBERT und MiniLM) mit kontrastivem Lernen, um Satzeinbettungen entsprechend der Abschnittslabels (Hintergrund, Ziel, Methoden, Ergebnisse, Schlussfolgerung) zu erzeugen. Die generierten Einbettungen wurden anschließend in Clustering- und Klassifizierungsaufgaben evaluiert.
Die Ergebnisse zeigen, dass die Verwendung der fein abgestimmten Einbettungen die Leistung deutlich verbessert. Bei den Clustering-Metriken waren die Werte im Durchschnitt fünfmal höher als bei den Basismodellen. Bei den Klassifizierungsmaßen gab es im besten Fall eine durchschnittliche Verbesserung des F1-Mikro-Werts von 30,73%.
Die Studie zeigt, dass die Verwendung von durch kontrastives Lernen fein abgestimmten Satzeinbettungen ein vielversprechender Ansatz für die Satzklassifizierung in wissenschaftlichen Artikeln ist.
Stats
Die Methoden-Sätze machen 33% der Trainingsdaten im PubMed-RCT 20k-Datensatz aus.
Im CSAbstruct-Datensatz sind 99,40% der Sätze relevant (Hintergrund, Ziel, Methoden, Ergebnisse), während es im PMC-Sents-FULL-Datensatz nur 46,34% sind.
Im PMC-Sents-FULL-Datensatz machen die "Andere"-Sätze 54% der Trainingsdaten aus.
Quotes
"Ergebnisse zeigen, dass die Verwendung von durch kontrastives Lernen fein abgestimmten Satzeinbettungen in nachgelagerten Aufgaben ein durchführbarer Ansatz für die Satzklassifizierung in wissenschaftlichen Artikeln ist."
"Im Durchschnitt waren die Werte der Clustering-Übereinstimmungsmaße fünfmal höher."