本論文では、Transformer ベースの視覚的関係検出モデルの訓練において、クエリを特定の関係グループに特化させることで、モデルの能力を効果的に活用する手法を提案する。また、高品質な予測に対して複数のグラウンドトゥルースを割り当てることで、より豊富な訓練信号を提供する。