単一の共有ビジョントランスフォーマーバックボーンを使用することで、パラメータ効率が高く、GPU メモリ使用量が小さく、大規模なデータセットやモデルサイズにスケールアップできる視覚-聴覚学習フレームワークを提案する。