핵심 개념
大規模言語モデルは間違いから学ぶことで、数学問題解決の推論力を高められる。
초록
本研究は、大規模言語モデル(LLM)の数学問題解決能力を向上させるために、モデルが自身の間違いから学習する方法を提案している。
主な内容は以下の通り:
- 間違いの修正データの生成
- 複数のLLMを使ってデータを収集し、GPT-4を用いて間違いの特定、説明、修正を行う
- 人手評価により、生成された修正データの品質が十分であることを確認
- 修正重視の進化戦略
- 単純にランダムに問題を選ぶのではなく、修正データに含まれる問題を中心に進化させることで、より効果的に修正データを拡張
- 間違いから学習するファインチューニング
- CoTデータと修正データを組み合わせてLLMをファインチューニングすることで、CoTデータのみの場合に比べて性能が向上
- CoTデータと修正データの効果は非均質であり、修正データから独自の情報を学習できることを示唆
実験の結果、提案手法「LEMA」は、GSM8K、MATH、SVAMP、ASDivの数学推論タスクや、CSQAの常識推論タスクにおいて、CoTデータのみのファインチューニングに比べて性能が向上することが示された。また、修正重視の進化戦略がLEMAの性能向上に効果的であることも確認された。
통계
Tinaは1時間あたり18ドルを稼ぐ。
1日10時間働き、5日間働いた場合の総収入は990ドルである。
인용구
"Mistakes are the portals of discovery." - James Joyce