本論文では、言語モデルの推論能力を向上させるための「自己動機付け学習」フレームワークを提案している。
このフレームワークの核となるのは、正解につながる推論ステップは間違った答えにつながる推論ステップよりも優れているという考え方である。
具体的には以下の3つのステップで構成される:
この手法により、大規模な言語モデルや手動アノテーションに依存せずに、既存のデータセットを活用して言語モデルの推論能力を向上させることができる。実験の結果、提案手法は複数のデータセットで大幅な性能向上を示した。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yunlong Feng... a las arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.07017.pdfConsultas más profundas