المفاهيم الأساسية
Durch die Kombination von Datengenerierung, Filterung und Parameter-effizienter Feinabstimmung (PEFT) kann eine effiziente und effektive Textklassifizierung mit wenigen Beispielen erreicht werden.
الملخص
Die Studie untersucht einen Ansatz zur effizienten und effektiven Textklassifizierung in Situationen mit sehr wenigen Trainingsdaten. Der Ansatz besteht aus drei Schritten:
- Datengenerierung: Das Sprachmodell wird verwendet, um synthetische Beispiele für jede Klasse zu generieren.
- Datenfilterung: Die generierten Beispiele werden mit dem Sprachmodell klassifiziert, um inkonsistente Beispiele zu entfernen.
- PEFT-Feinabstimmung: Das Sprachmodell wird mit den gefilterten synthetischen Daten und den wenigen realen Beispielen feinabgestimmt.
Die Experimente zeigen, dass dieser Ansatz auf mehreren Textklassifizierungsaufgaben zu Ergebnissen führt, die mit oder besser als In-Context-Learning sind, aber deutlich effizienter in Bezug auf die Inferenzzeit.
الإحصائيات
Mit nur 4 Beispielen pro Klasse erreicht unser Ansatz eine Genauigkeit von 0,90 auf dem SST2-Datensatz, verglichen mit 0,95 für In-Context-Learning.
Auf dem TREC-Datensatz erreicht unser Ansatz 0,79 Genauigkeit, während In-Context-Learning nur 0,60 erreicht.
Die Inferenzzeit unseres Ansatzes ist etwa 2 bis 5 Mal schneller als In-Context-Learning.
اقتباسات
"Durch die Kombination von Datengenerierung, Filterung und Parameter-effizienter Feinabstimmung (PEFT) kann eine effiziente und effektive Textklassifizierung mit wenigen Beispielen erreicht werden."
"Die Experimente zeigen, dass dieser Ansatz auf mehreren Textklassifizierungsaufgaben zu Ergebnissen führt, die mit oder besser als In-Context-Learning sind, aber deutlich effizienter in Bezug auf die Inferenzzeit."