提案されたエンコーダー専用アーキテクチャは、オープンボキャブラリーの視覚関係検出において強力なパフォーマンスを達成し、従来のデコーダーに基づくアーキテクチャよりも優れていることを示しています。
Proposing Groupwise Query Specialization and Quality-Aware Multi-Assignment (SpeaQ) to enhance Transformer-based Visual Relationship Detection models by training specialized queries and providing richer training signals.