本論文では、言語モデルの推論能力を向上させるための「自己動機付け学習」フレームワークを提案している。
このフレームワークの核となるのは、正解につながる推論ステップは間違った答えにつながる推論ステップよりも優れているという考え方である。
具体的には以下の3つのステップで構成される:
この手法により、大規模な言語モデルや手動アノテーションに依存せずに、既存のデータセットを活用して言語モデルの推論能力を向上させることができる。実験の結果、提案手法は複数のデータセットで大幅な性能向上を示した。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Yunlong Feng... om arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.07017.pdfDiepere vragen