Core Concepts
Einfache Methoden zum Kürzen und Anreichern von Textsequenzen können die Leistung von Transformer-Modellen bei der Klassifizierung langer Texte auf ressourcenbeschränkten GPU-Diensten verbessern.
Abstract
Die Studie untersucht verschiedene Strategien, um die Leistung von Transformer-Modellen bei der Klassifizierung langer Texte auf ressourcenbeschränkten GPU-Diensten zu verbessern. Dazu gehören:
Untersuchung der Tokenisierungsausgabelänge verschiedener Transformer-Modelle, um geeignete Modelle für Indonesisch zu empfehlen.
Vorschlag eines effizienten und dynamischen Hyperparameter-Optimierungsverfahrens, das schrittweise auf begrenzten Ressourcen durchgeführt werden kann.
Vergleich verschiedener Strategien zum Kürzen und Anreichern der Textsequenzen, wie das Entfernen von Stoppwörtern, Satzzeichen und seltenen Wörtern.
Vergleich der Leistung bei Verwendung von 128, 256 und 512 Tokensequenzen.
Die Ergebnisse zeigen, dass das Entfernen von Stoppwörtern bei Beibehaltung von Satzzeichen und seltenen Wörtern die beste Leistung erbringt. Außerdem können 256- oder 128-Token-Sequenzen die gleiche Leistung wie 512-Token-Sequenzen erreichen, bei geringerem Rechenaufwand.
Stats
Die meisten Tokenizer indonesischer Transformer-Modelle erzeugen 10-14% mehr Tokens als durchschnittlich.
Mehrsprachige Tokenizer erzeugen 20-48% mehr Tokens.
Mit der besten Hack-Methode (Entfernen von Stoppwörtern) erreicht DistilBERT einen F1-Score von 83,01.
Mit 256-Token-Sequenzen erreicht DistilBERT einen F1-Score von 83,02, mit 128-Token-Sequenzen 83,01.
Quotes
"Removing stopwords outperforms the other methods."
"Some of our setups manage to outperform taking 512 first tokens using a smaller 128 or 256 first tokens which manage to represent the same information while requiring less computational resources."