Concetti Chiave
Ein hybrides Instanzfilterungsframework (BO O S TAU G) basierend auf vortrainierten Sprachmodellen kann die Leistung bestehender Textaugmentierungsmethoden signifikant verbessern, indem es den Featureraum-Shift der generierten Augmentierungsinstanzen reduziert.
Sintesi
Die Studie untersucht das Problem des Featureraum-Shifts bei bestehenden Textaugmentierungsmethoden, das oft zu einer Leistungseinbuße auf großen Datensätzen führt. Um dies zu adressieren, schlagen die Autoren ein hybrides Instanzfilterungsframework namens BO O S TAU G vor, das auf vortrainierten Sprachmodellen basiert.
BO O S TAU G besteht aus zwei Phasen:
- Trainieren eines Surrogat-Sprachmodells auf Basis eines DeBERTa-Klassifikationsmodells, das auf einem Teil des Originaldatensatzes feinabgestimmt wird.
- Filtern der durch bestehende Augmentierungsmethoden generierten Instanzen mithilfe des Surrogat-Sprachmodells. Dazu werden vier Strategien verwendet: Perplexitätsfilterung, Konfidenzranking, Beschränkung der vorhergesagten Klasse und eine Cross-Boosting-Strategie.
Die Experimente auf drei Textklassifizierungsaufgaben und neun öffentlichen Datensätzen zeigen, dass BO O S TAU G den Featureraum-Shift effektiv reduziert und die Leistung bestehender Augmentierungsmethoden um etwa 2-3% in der Klassifikationsgenauigkeit verbessert. BO O S TAU G kann nahtlos in bestehende Augmentierungsmethoden integriert werden.
Statistiche
Die Augmentierungsmethode EDA verliert in der aspektbasierten Sentimentanalyse etwa 2% Genauigkeit.
BO O S TAU G reduziert den Featureraum-Shift im Vergleich zu EDA und MonoAug deutlich.
Citazioni
"Unsere Forschung zeigt, dass bestehende Augmentierungsmethoden oft Instanzen mit verschobenem Featureraum generieren, was zu einem Leistungsrückgang bei den augmentierten Daten führt."
"BO O S TAU G adressiert das Leistungsrückgangsproblem und übertrifft den Stand der Technik bei Textaugmentierungsmethoden."