Core Concepts
Durch die Erstellung und den Abruf von Werkzeugen, die auf spezifische Probleme zugeschnitten sind, können Großsprachmodelle an verschiedene Aufgaben und Domänen angepasst werden, ohne dass eine aufwendige Feinabstimmung erforderlich ist.
Abstract
Die Studie präsentiert CRAFT, ein Framework zur Erstellung und zum Abruf von Werkzeugen, um Großsprachmodelle für verschiedene Aufgaben und Domänen zu generalisieren.
Der Prozess der Werkzeugerstellung umfasst vier Schritte:
- Generierung: Iteratives Sampling von Beispielproblemen und Generierung von Lösungscode mithilfe von GPT-4.
- Abstraktion: Umwandlung der spezifischen Lösungen in wiederverwendbare Werkzeuge mit generischen Namen und Beschreibungen.
- Validierung: Überprüfung der Korrektheit der Werkzeuge anhand der Originalproblemen.
- Deduplizierung: Entfernung redundanter Werkzeuge zur Erhöhung der Diversität.
Bei der Inferenz verwendet CRAFT einen Mehrfachansatz zur Werkzeugauswahl, der den Zielprobleme, Funktionsnamen und Beschreibungen berücksichtigt, um relevante Werkzeuge aus der erstellten Werkzeugbasis abzurufen.
Die Experimente auf Aufgaben wie visueller Fragebeantworung, Tabellenverarbeitung und mathematisches Reasoning zeigen, dass CRAFT im Vergleich zu starken Basislinien erhebliche Leistungsverbesserungen erzielt. Weitere Analysen zeigen, dass die Leistung mit der Skalierung der Werkzeugbasis und der Leistungsfähigkeit der Basismodelle weiter zunimmt, und dass jede Komponente von CRAFT zu den Leistungsgewinnen beiträgt. Darüber hinaus weisen die erstellten Werkzeuge eine geringe Komplexität und Atomizität auf, was auf ihre robuste Struktur und Zuverlässigkeit hindeutet.
Stats
Die durchschnittliche zyklomatische Komplexität der Werkzeuge beträgt 2,64 für VQA, 2,07 für Tabellenverarbeitung und 1,34 für mathematisches Reasoning.
Es gibt 195 verschiedene Werkzeugklassen für VQA, 23 für Tabellenverarbeitung und 234 für mathematisches Reasoning.
Quotes
"Durch die Erstellung und den Abruf von Werkzeugen, die auf spezifische Probleme zugeschnitten sind, können Großsprachmodelle an verschiedene Aufgaben und Domänen angepasst werden, ohne dass eine aufwendige Feinabstimmung erforderlich ist."
"Die Experimente auf Aufgaben wie visueller Fragebeantworung, Tabellenverarbeitung und mathematisches Reasoning zeigen, dass CRAFT im Vergleich zu starken Basislinien erhebliche Leistungsverbesserungen erzielt."