核心概念
視覚言語モデルを報酬モデルとして使用することで、事前学習済みのイメージキャプショニングモデルを改善し、より詳細な説明文を生成することができる。
要約
本研究では、事前学習済みのイメージキャプショニングモデル(BLIP2)を強化学習によって改善する手法を提案している。具体的には以下の通りである:
視覚言語モデル(CLIP、BLIP2-ITM)の類似度スコアを報酬関数として使用し、強化学習によってモデルを微調整する。
報酬関数には、テキストの自然さ、不適切な語句の使用、繰り返しの抑制などの要素も組み込む。
提案手法を用いることで、BLIP2ベースラインモデルに比べて、MS-COCOデータセットのKarpathy Test Splitにおける CLIP Recall R@1スコアが38.8%向上した。
生成されたキャプションは、オリジナルモデルに比べて、より詳細な情報を含むようになった。特に、物体の色の表現が大幅に改善された。
統計
生成されたキャプションのCLIP Recall R@1スコアは、BLIP2ベースラインモデルの0.517から0.905に向上した。
生成されたキャプションのCLIP Recall R@5スコアは、BLIP2ベースラインモデルの0.748から0.984に向上した。