Die Studie untersucht, wie sich große Sprachmodelle wie LLaMA und Flan-T5, die auf Textgenerierung spezialisiert sind, im Vergleich zu etablierten Ansätzen wie feingefeilten Sprachmodellen wie RoBERTa bei der Textklassifizierung in Nullschuss- und Wenig-Schuss-Einstellungen schlagen.
Die Ergebnisse zeigen, dass kleinere, instruktionsbasierte Modelle wie Flan-T5 die größeren Textgenerierungsmodelle wie LLaMA in Bezug auf Mikro-F1 und Makro-F1 in beiden Einstellungen übertreffen können. Dies deutet darauf hin, dass feinabgestimmte, effizientere Sprachmodelle immer noch leistungsfähiger sein können als große Sprachmodelle, wenn es um Textklassifizierung geht.
Darüber hinaus zeigt die Analyse, dass die Wahl des Prompts die Leistung der Modelle nicht signifikant beeinflusst. Stattdessen hängt die Leistung stärker vom Klassifikationstyp (binär, Mehrklassen, Mehrfachlabel) und der Domäne ab. Während Flan-T5 bei binären und Mehrklassen-Klassifizierungsaufgaben besser abschneidet, überwiegen bei Mehrfachlabel-Aufgaben die feingefeilten Sprachmodelle.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Aleksandra E... klokken arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17661.pdfDypere Spørsmål