Core Concepts
大規模言語モデルの数学的推論能力を向上させるため、前方向の中間推論状態予測タスクと逆方向の指示再構築タスクからなる双方向指示チューニング戦略を提案する。
Abstract
本研究は、大規模言語モデルの数学的推論能力を向上させるための双方向指示チューニング戦略を提案している。
具体的には以下の2つのタスクを導入している:
- 中間推論状態予測(IRSP)タスク:
- 指示と部分的に明らかにされた推論ステップを入力として、隠されたステップを予測する。
- これにより、モデルの指示理解と実行能力を向上させる。
- 指示再構築(IR)タスク:
- 指示の一部を隠し、推論ステップと部分的に明らかにされた指示から、隠された部分を再構築する。
- これにより、モデルの指示理解と実行能力をさらに高める。
これらのタスクのためのデータセットを構築し、既存の数学指示データセットと組み合わせてマルチタスク学習を行う。
実験の結果、提案手法は数学的推論タスクにおいて性能を向上させ、ドメイン一般化性も高めることが示された。特に、複雑な問題に対する推論能力が向上した。
Stats
1週間に月曜日、水曜日、金曜日は1時間の授業が3つ、火曜日と木曜日は2時間の授業が2つある。
1学期は16週間ある。
カタリーナはマックスより5個少ないクッキーを持っている。
マックスはクッキーモンスターより12個多く、サマーはマックスより23個多い。
ベッキーは10枚のピザの切れ目を食べた。ジェイクはベッキーより3枚少なく、シルビアはジェイクの2倍の切れ目を食べた。
Quotes
"大規模言語モデルの数学的推論能力を向上させるため、前方向の中間推論状態予測タスクと逆方向の指示再構築タスクからなる双方向指示チューニング戦略を提案する。"
"実験の結果、提案手法は数学的推論タスクにおいて性能を向上させ、ドメイン一般化性も高めることが示された。特に、複雑な問題に対する推論能力が向上した。"