Der Artikel untersucht, ob atomare Fähigkeiten von Sprachmodellen spontan auf komplexe Reasoning-Aufgaben übertragen werden können und wie man diese Übertragung effektiv induzieren kann.
Die Autoren wählen Mathematikwortprobleme (MWP) als Benchmark-Aufgabe und Arithmetik sowie Maßeinheiten-Umrechnung als relevante atomare Fähigkeiten aus. Sie schlagen ein Prüfverfahren vor, um die Generalisierung von atomaren Fähigkeiten zu untersuchen.
Die Experimente zeigen, dass atomare Fähigkeiten nicht spontan auf komplexe Aufgaben übertragen werden können. Die Autoren führen daher ein hierarchisches Curriculum-Lernverfahren ein, das in zwei Phasen abläuft:
Dieses Verfahren ermöglicht es den Sprachmodellen, die atomaren Fähigkeiten erfolgreich auf die komplexen Aufgaben zu übertragen. Die Autoren zeigen außerdem, dass die Fähigkeitsverbesserung auch auf andere Datensätze und Domänen übertragbar ist. Umgekehrt können komplexe Aufgaben auch dazu beitragen, die atomaren Fähigkeiten zu verbessern.
Die Ergebnisse liefern wertvolle Erkenntnisse für die Entwicklung effektiver Trainingstrategien für komplexe Reasoning-Aufgaben.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询