Centrala begrepp
Große Sprachmodelle zeigen zwar Spitzenleistungen in Nullschuss- und Wenig-Schuss-Einstellungen, aber kleinere, feiner abgestimmte Sprachmodelle können sie bei der Textklassifizierung immer noch übertreffen.
Sammanfattning
Die Studie untersucht, wie sich große Sprachmodelle wie LLaMA und Flan-T5, die auf Textgenerierung spezialisiert sind, im Vergleich zu etablierten Ansätzen wie feingefeilten Sprachmodellen wie RoBERTa bei der Textklassifizierung in Nullschuss- und Wenig-Schuss-Einstellungen schlagen.
Die Ergebnisse zeigen, dass kleinere, instruktionsbasierte Modelle wie Flan-T5 die größeren Textgenerierungsmodelle wie LLaMA in Bezug auf Mikro-F1 und Makro-F1 in beiden Einstellungen übertreffen können. Dies deutet darauf hin, dass feinabgestimmte, effizientere Sprachmodelle immer noch leistungsfähiger sein können als große Sprachmodelle, wenn es um Textklassifizierung geht.
Darüber hinaus zeigt die Analyse, dass die Wahl des Prompts die Leistung der Modelle nicht signifikant beeinflusst. Stattdessen hängt die Leistung stärker vom Klassifikationstyp (binär, Mehrklassen, Mehrfachlabel) und der Domäne ab. Während Flan-T5 bei binären und Mehrklassen-Klassifizierungsaufgaben besser abschneidet, überwiegen bei Mehrfachlabel-Aufgaben die feingefeilten Sprachmodelle.
Statistik
"Recent foundational language models have shown state-of-the-art performance in many NLP tasks in zero- and few-shot settings."
"Fine-tuning smaller and more efficient language models can still outperform few-shot approaches of larger language models, which have room for improvement when it comes to text classification."
"The promising results of these models against various benchmark datasets led to increased research into developing methods, mainly based on prompt engineering techniques, for improving their generalisation capabilities."
Citat
"Recent foundational language models have shown state-of-the-art performance in many NLP tasks in zero- and few-shot settings."
"Fine-tuning smaller and more efficient language models can still outperform few-shot approaches of larger language models, which have room for improvement when it comes to text classification."
"The promising results of these models against various benchmark datasets led to increased research into developing methods, mainly based on prompt engineering techniques, for improving their generalisation capabilities."