Kleine Modelle können durch Programm-unterstützte Destillation das Schlussfolgern besser lernen als durch Chain-of-Thought Feinabstimmung
Programm-unterstützte Destillation (PaD) ermöglicht es kleinen Sprachmodellen, Schlussfolgerungsfähigkeiten besser zu erlernen als durch Chain-of-Thought Feinabstimmung.