核心概念
大規模言語モデル(LLM)を用いたライブラリ学習システムにおいて、ツールの再利用は想定よりもはるかに少なく、性能向上は主に自己修正と自己整合性によって driven されている可能性が高い。
要約
LLMライブラリ学習におけるツール再利用の乏しさ:自己修正と自己整合性の影響
本稿は、大規模言語モデル(LLM)を用いた数学的推論におけるライブラリ学習システムの評価に関する研究論文である。具体的には、Isabelle補題の学習を目指すLEGO-Proverと、Python関数の学習を目指すTroVEという2つのシステムを対象に、ツールの再利用状況と性能向上要因を分析している。
公開されているLEGO-Proverの評価ログファイルと、MATHデータセットを用いたTroVEの実験ログの分析から、以下の点が明らかになった。
LEGO-Prover: 最終的な問題解決段階で使用された1,233個の補題のうち、 verbatimで再利用されたのはわずか1つのみであった。また、補題名の再利用も稀であり、2回以上使用された補題は存在しなかった。
TroVE: 最終的なライブラリに含まれる15個の学習済み関数のうち、正答の導出に再利用されたのはわずか2つのみであった。
上記の分析結果から、両システムにおける性能向上は、ツールの直接的な再利用によるものではない可能性が高い。そこで、自己修正と自己整合性が性能向上に寄与しているという仮説を立て、以下のアブレーション実験を行った。
LEGO-Prover: 問題間での状態やデータベースの共有を無効化し、各問題を独立して解決するように変更した。
TroVE: ライブラリを使用するIMPORTモードを無効化し、ライブラリを使用せずに問題を解決するように変更した。
その結果、LEGO-Proverでは、アブレーションモデルでもベースラインとほぼ同等の性能が得られた。また、TroVEでは、一部のデータセットを除き、アブレーションモデルの方がベースラインよりも高い性能を示した。