本論文では、言語モデルの推論能力を向上させるための「自己動機付け学習」フレームワークを提案している。
このフレームワークの核となるのは、正解につながる推論ステップは間違った答えにつながる推論ステップよりも優れているという考え方である。
具体的には以下の3つのステップで構成される:
この手法により、大規模な言語モデルや手動アノテーションに依存せずに、既存のデータセットを活用して言語モデルの推論能力を向上させることができる。実験の結果、提案手法は複数のデータセットで大幅な性能向上を示した。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Yunlong Feng... um arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.07017.pdfTiefere Fragen