物体発見のためのマスク付きマルチクエリスロットアテンションアプローチを提案し、背景領域を選択的にマスクすることで、物体に関する複雑な意味情報を学習できるようにする。また、複数のスロットを独立して学習し、ハンガリアンマッチングを用いて融合することで、より安定した物体マスクを生成する。