Der Artikel stellt einen neuartigen Rahmen namens LM-Guided CoT vor, der zwei unabhängige Sprachmodelle nutzt, um das Kettendenken-Prompting (Chain-of-Thought Prompting) zu verbessern.
Zunächst wird ein leichtgewichtiges Sprachmodell (< 1 Milliarde Parameter) verwendet, um eine Begründung für jede Eingabe zu generieren. Anschließend wird ein großes Sprachmodell (> 10 Milliarden Parameter) dazu verwendet, basierend auf der vom leichtgewichtigen Modell generierten Begründung eine Aufgabenausgabe vorherzusagen.
Der Ansatz ist ressourceneffizient, da nur das leichtgewichtige Modell trainiert werden muss. Die Autoren optimieren das Modell durch Wissenstransfer (Knowledge Distillation) und Verstärkungslernen (Reinforcement Learning) unter Verwendung von Begründungs- und Aufgabenorientierter Belohnung.
Die Experimente auf Multi-Hop-Frage-Antwort-Benchmarks zeigen, dass der LM-Guided CoT-Ansatz alle Basislinien in Bezug auf die Genauigkeit der Antwortvorhersage übertrifft. Außerdem stellt sich heraus, dass Verstärkungslernen zu einer leichten Verbesserung der Begründungsqualität und der Aufgabenleistung führt.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jooyoung Lee... lúc arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03414.pdfYêu cầu sâu hơn