本論文は、大規模言語モデルの視覚プログラム合成能力を向上させる方法を提案している。従来の手法では、大規模言語モデルを凍結して使用していたが、本手法では言語モデルのパラメータを最適化することで、より正確なプログラムを合成できるようにする。
データセットの不足が課題となるため、既存の視覚言語タスクの注釈を利用してコース報酬を構築し、強化自己トレーニングを適用する。これにより、大規模言語モデルが視覚プログラム合成を通して直接的な経験から学習できるようになる。
実験では、物体検出、視覚問題回答、画像テキストマッチングの3つのタスクで評価を行い、提案手法が既存の大規模言語モデルを上回る性能を示すことを確認した。特に、物体検出の難しい事例でも良好な結果が得られた。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zaid Khan,Vi... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04627.pdfDeeper Inquiries