本研究では、セグメントアニシングモデル(SAM)に領域キャプション生成機能を効率的に追加する手法を提案している。
まず、SAMの画像エンコーダと軽量な特徴融合モジュールを組み合わせる。特徴融合モジュールは、SAMの視覚特徴とプロンプトトークンを自己注意と交差注意で融合し、領域特徴を抽出する。この融合された領域特徴を、事前学習済みの言語モデルの埋め込み空間に整列させることで、効率的な領域キャプション生成を実現する。
学習時には、特徴融合モジュールのみを最適化し、他のモジュールは固定する。これにより、少ない学習パラメータで高速かつスケーラブルな学習が可能となる。
さらに、領域キャプションデータが限定的であるという課題に対処するため、物体検出や分割のデータを用いた弱教師学習を提案する。これにより、より一般的な視覚概念の理解を獲得し、領域キャプション生成の性能を向上させる。
実験の結果、提案手法はVisual Genome benchmarkにおいて最先端の性能を達成し、SAMの領域理解能力を大幅に向上させることが示された。本研究は、領域キャプションデータの拡大と、セグメンテーションモデルへの効率的な言語理解機能の追加に向けた重要な一歩となる。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询