Die Studie untersucht, wie sich große Sprachmodelle wie LLaMA und Flan-T5, die auf Textgenerierung spezialisiert sind, im Vergleich zu etablierten Ansätzen wie feingefeilten Sprachmodellen wie RoBERTa bei der Textklassifizierung in Nullschuss- und Wenig-Schuss-Einstellungen schlagen.
Die Ergebnisse zeigen, dass kleinere, instruktionsbasierte Modelle wie Flan-T5 die größeren Textgenerierungsmodelle wie LLaMA in Bezug auf Mikro-F1 und Makro-F1 in beiden Einstellungen übertreffen können. Dies deutet darauf hin, dass feinabgestimmte, effizientere Sprachmodelle immer noch leistungsfähiger sein können als große Sprachmodelle, wenn es um Textklassifizierung geht.
Darüber hinaus zeigt die Analyse, dass die Wahl des Prompts die Leistung der Modelle nicht signifikant beeinflusst. Stattdessen hängt die Leistung stärker vom Klassifikationstyp (binär, Mehrklassen, Mehrfachlabel) und der Domäne ab. Während Flan-T5 bei binären und Mehrklassen-Klassifizierungsaufgaben besser abschneidet, überwiegen bei Mehrfachlabel-Aufgaben die feingefeilten Sprachmodelle.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Aleksandra E... kl. arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17661.pdfDybere Forespørgsler