Abstract
概要:
本稿では、言語モデルが新しいツールを使用する際の性能向上のための自己検証手法を提案しています。ツール呼び出しタスクをツール選択とパラメータ生成に分解し、各ステップで検証を適用します。実験結果は、公開されているToolBenchベンチマークからの4つのタスクで大幅な改善を示しています。
構成:
導入
大規模言語モデルにおける新しいツール使用の重要性。
TOOLVERIFIER紹介
ツール選択とパラメータ生成における自己検証手法。
実験結果
Tool Selection OnlyとTool Call (Selection + Parameters)の比較。
分析
合成トレーニングデータとパラメータ検証エラーの分析。
関連研究と結論
Stats
22%以上の平均改善が示された。
173個の合成ツールが含まれるトレーニングデータセットが使用された。
Quotes
"Our approach, TOOLVERIFIER, outperforms all baselines on average and individually across the majority of tasks."
"The proposed self-verification mechanism contributes an improvement of 8%, underscoring its pivotal role in boosting overall performance."