セグメントアニシングモデル(SAM)に領域キャプション生成機能を効率的に追加する手法を提案する。軽量な特徴融合モジュールを導入し、SAMの視覚特徴をテキストの埋め込み空間に整列させることで、少ない学習パラメータで高速かつスケーラブルな領域キャプション生成を実現する。