核心概念
ビジョン言語モデルの推論能力を向上させるため、大規模言語モデルが生成したプログラムと視覚ツールの能力を蒸留する手法を提案する。
要約
本研究では、Visual Program Distillation (VPD)と呼ばれる新しい手法を提案している。VPDは、大規模言語モデル(LLM)が生成したプログラムと視覚ツールの能力を組み合わせ、ビジョン言語モデル(VLM)の推論能力を向上させる。
具体的には以下の4つのステップから成る:
- プログラム生成と検証: LLMを使ってプログラムを生成し、正解するプログラムを選別する。
- プログラム実行: 選別したプログラムを視覚ツールで実行し、推論過程を記録する。
- プログラム実行過程の自然言語への変換: プログラムの実行過程を自然言語の推論ステップに変換する。
- 段階的蒸留: 生成したデータを使ってVLMをファインチューニングする。
この手法により、VLMの視覚推論能力が大幅に向上し、複雑な視覚タスクでSOTAを達成した。特に、数え上げ、空間推論、複合推論などの能力が向上した。また、人間評価でも、VPD版のモデルは推論の一貫性と正確性が高いことが示された。
さらに、ラベルなしデータでも良好な性能を発揮し、ヘイトフルミームの検出タスクでSOTAを達成した。
統計
視覚プログラムの成功率は、トップ1プログラムでは43-63%だったが、トップ5プログラムを使うと68-88%まで向上した。
VPD版のPaLI-X-VPDモデルは、視覚プログラムよりも8-20ポイント高い精度を達成した。
引用
"Solving complex visual tasks such as "Who invented the musical instrument on the right?" involves a composition of skills: understanding space, recognizing instruments, and also retrieving prior knowledge."
"Recent work shows promise by decomposing such tasks using a large language model (LLM) into an executable program that invokes specialized vision models. However, generated programs are error-prone: they omit necessary steps, include spurious ones, and are unable to recover when the specialized models give incorrect outputs."