Der Artikel untersucht, ob atomare Fähigkeiten von Sprachmodellen spontan auf komplexe Reasoning-Aufgaben übertragen werden können und wie man diese Übertragung effektiv induzieren kann.
Die Autoren wählen Mathematikwortprobleme (MWP) als Benchmark-Aufgabe und Arithmetik sowie Maßeinheiten-Umrechnung als relevante atomare Fähigkeiten aus. Sie schlagen ein Prüfverfahren vor, um die Generalisierung von atomaren Fähigkeiten zu untersuchen.
Die Experimente zeigen, dass atomare Fähigkeiten nicht spontan auf komplexe Aufgaben übertragen werden können. Die Autoren führen daher ein hierarchisches Curriculum-Lernverfahren ein, das in zwei Phasen abläuft:
Dieses Verfahren ermöglicht es den Sprachmodellen, die atomaren Fähigkeiten erfolgreich auf die komplexen Aufgaben zu übertragen. Die Autoren zeigen außerdem, dass die Fähigkeitsverbesserung auch auf andere Datensätze und Domänen übertragbar ist. Umgekehrt können komplexe Aufgaben auch dazu beitragen, die atomaren Fähigkeiten zu verbessern.
Die Ergebnisse liefern wertvolle Erkenntnisse für die Entwicklung effektiver Trainingstrategien für komplexe Reasoning-Aufgaben.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Yuncheng Hua... klokken arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.09479.pdfDypere Spørsmål