Der Artikel untersucht, ob atomare Fähigkeiten von Sprachmodellen spontan auf komplexe Reasoning-Aufgaben übertragen werden können und wie man diese Übertragung effektiv induzieren kann.
Die Autoren wählen Mathematikwortprobleme (MWP) als Benchmark-Aufgabe und Arithmetik sowie Maßeinheiten-Umrechnung als relevante atomare Fähigkeiten aus. Sie schlagen ein Prüfverfahren vor, um die Generalisierung von atomaren Fähigkeiten zu untersuchen.
Die Experimente zeigen, dass atomare Fähigkeiten nicht spontan auf komplexe Aufgaben übertragen werden können. Die Autoren führen daher ein hierarchisches Curriculum-Lernverfahren ein, das in zwei Phasen abläuft:
Dieses Verfahren ermöglicht es den Sprachmodellen, die atomaren Fähigkeiten erfolgreich auf die komplexen Aufgaben zu übertragen. Die Autoren zeigen außerdem, dass die Fähigkeitsverbesserung auch auf andere Datensätze und Domänen übertragbar ist. Umgekehrt können komplexe Aufgaben auch dazu beitragen, die atomaren Fähigkeiten zu verbessern.
Die Ergebnisse liefern wertvolle Erkenntnisse für die Entwicklung effektiver Trainingstrategien für komplexe Reasoning-Aufgaben.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yuncheng Hua... lúc arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.09479.pdfYêu cầu sâu hơn