Der Artikel untersucht, ob atomare Fähigkeiten von Sprachmodellen spontan auf komplexe Reasoning-Aufgaben übertragen werden können und wie man diese Übertragung effektiv induzieren kann.
Die Autoren wählen Mathematikwortprobleme (MWP) als Benchmark-Aufgabe und Arithmetik sowie Maßeinheiten-Umrechnung als relevante atomare Fähigkeiten aus. Sie schlagen ein Prüfverfahren vor, um die Generalisierung von atomaren Fähigkeiten zu untersuchen.
Die Experimente zeigen, dass atomare Fähigkeiten nicht spontan auf komplexe Aufgaben übertragen werden können. Die Autoren führen daher ein hierarchisches Curriculum-Lernverfahren ein, das in zwei Phasen abläuft:
Dieses Verfahren ermöglicht es den Sprachmodellen, die atomaren Fähigkeiten erfolgreich auf die komplexen Aufgaben zu übertragen. Die Autoren zeigen außerdem, dass die Fähigkeitsverbesserung auch auf andere Datensätze und Domänen übertragbar ist. Umgekehrt können komplexe Aufgaben auch dazu beitragen, die atomaren Fähigkeiten zu verbessern.
Die Ergebnisse liefern wertvolle Erkenntnisse für die Entwicklung effektiver Trainingstrategien für komplexe Reasoning-Aufgaben.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Yuncheng Hua... às arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.09479.pdfPerguntas Mais Profundas