Der Artikel stellt einen neuen Ansatz namens CrossTune vor, um Sprach-Großmodelle für Textklassifizierungsaufgaben mit wenigen Trainingsbeispielen effizient anzupassen.
Bestehende Ansätze zur Anpassung von Sprach-Großmodellen erfordern entweder den Zugriff auf interne Modellparameter (White-Box-Methoden) oder eine aufwendige Suche nach optimalen Prompts (Black-Box-Methoden). CrossTune adressiert diese Herausforderungen, indem es die Sprach-Großmodelle als Feature-Extraktoren behandelt und die semantischen Informationen der Klassenbeschreibungen nutzt, um die Aufmerksamkeit des Modells auf relevante Aspekte des Eingabetextes zu lenken.
Konkret extrahiert CrossTune zunächst die versteckten Zustände des Eingabetextes aus dem gefrorenen Sprach-Großmodell. Zusätzlich werden die Klassenbeschreibungen ebenfalls in Vektoren überführt. Ein Multi-Head-Aufmerksamkeitsnetzwerk wird dann trainiert, um die Relevanz jeder Klassenbeschreibung in Bezug auf den Eingabetext zu modellieren. Auf diese Weise kann das Modell gezielt auf die für die Klassifizierung wichtigen Textmerkmale fokussieren, ohne eine aufwendige Prompt-Suche durchführen zu müssen.
Um die Generalisierungsfähigkeit von CrossTune weiter zu verbessern, wird ChatGPT genutzt, um zusätzliche Trainingsdaten durch kontextbasiertes Lernen zu generieren. Ein Mechanismus zur Qualitätskontrolle der ChatGPT-generierten Daten wird implementiert, indem ein zusätzliches DeBERTa-Modell als Lehrer-Modell eingesetzt wird.
Umfangreiche Experimente auf 7 Benchmarkdatensätzen für Textklassifizierung zeigen, dass CrossTune den bisherigen State-of-the-Art-Ansatz für Black-Box-Prompt-Optimierung im Durchschnitt um 5,7% übertrifft. Selbst ohne Verwendung der ChatGPT-generierten Daten erzielt CrossTune bessere oder vergleichbare Ergebnisse als bisherige Black-Box-Methoden, was die Effektivität des Ansatzes unterstreicht.
翻譯成其他語言
從原文內容
arxiv.org
深入探究