Core Concepts
LLMsは複雑な物理問題を解くのに困難を伴うが、RLHF(人間からのフィードバックを用いた強化学習)とイメージキャプショニングを用いることで、より人間的な問題解決能力と推論能力を向上させることができる。
Abstract
本研究では、LLMsの物理問題解答能力を向上させるために、以下の2つの手法を提案している。
イメージキャプショニング:
各画像に詳細な説明を追加することで、LLMsの幻覚や画像処理エラーを最小限に抑える。
Infi-MMモデルを使用して画像キャプションを生成し、問題文と回答とともにLLMsに入力する。
人間からのフィードバックを用いた強化学習(RLHF):
人間の好みデータを使ってReward Modelを訓練し、LLMsの推論能力と人間らしさを向上させる。
PPOアルゴリズムを使って、LLMsの出力を繰り返し評価・更新する。
実験では、LLaVAモデルを使って以下の6つの設定で物理問題解答タスクを行い、RLHF手法とイメージキャプショニングの効果を検証した:
問題文・回答・画像・キャプション
問題文・回答・キャプション
問題文・回答・画像
問題文・回答・画像・キャプション + RLHF
問題文・回答・キャプション + RLHF
問題文・回答・画像 + RLHF
Stats
物理問題解答の正解率は、RLHF手法とイメージキャプショニングを組み合わせた場合に最も高くなった。
LLaVA 1.5 13bモデルにRLHFを適用した場合、正解率は83.28%まで向上した。
Quotes
"LLMsは複雑な物理問題を解くのに困難を伴うが、RLHF(人間からのフィードバックを用いた強化学習)とイメージキャプショニングを用いることで、より人間的な問題解決能力と推論能力を向上させることができる。"
"イメージキャプショニングによって、LLMsの幻覚や画像処理エラーを最小限に抑えることができる。"