Die Studie beschreibt, wie BERT-Modelle trainiert werden, um ein Annotationssystem, das auf den Absätzen einer ungarischen Literaturzeitschrift entwickelt wurde, auf ein anderes Korpus zu übertragen. Das Ziel des Annotationssystems ist es, Trends in der Wahrnehmung literarischer Übersetzung rund um den politischen Umbruch in Ungarn im Jahr 1989 zu verfolgen.
Um nicht nur die Aufgabenleistung, sondern auch die Konsistenz der Annotation zu bewerten und bessere Vorhersagen aus einem Ensemble zu erhalten, wird eine 10-fache Kreuzvalidierung verwendet. Umfangreiche Hyperparameteroptimierung wird eingesetzt, um die bestmöglichen Ergebnisse und faire Vergleiche zu erzielen. Um Labelungleichgewicht zu bewältigen, werden robuste Verlustfunktionen und Metriken verwendet.
Die Auswirkungen des Domänenwechsels werden durch Stichprobenentnahme eines Testsatzes aus der Zieldomäne evaluiert. Die Stichprobengröße wird durch Schätzung des Bootstrap-Konfidenzintervalls über Simulationen ermittelt. Auf diese Weise wird gezeigt, dass die Modelle das Annotationssystem auf die Zieldomäne übertragen können.
Es werden weitere Vergleiche mit verschiedenen Verlustfunktionen und zahlreichen kostengünstigen Basislinien-Methoden durchgeführt. Es wird gezeigt, dass Transformatoren einen klaren Vorteil gegenüber kostengünstigen Basislinien auf Basis von Bag-of-Words und Worteinbettungen haben. Weitere Tendenzen werden aufgezeigt, wie z.B. dass ein Mehrklassifikator robuster gegenüber Domänenwechsel ist als individuelle Binärklassifikatoren, und dass das Hinzufügen einer Konfidenzstrafe zur BERT-Feinabstimmung ebenfalls einen positiven Effekt auf den Domänenwechsel hat.
To Another Language
from source content
arxiv.org
Deeper Inquiries