Khái niệm cốt lõi
提案手法Hydra-SGGは、1段階シーングラフ生成モデルにおける学習効率の向上を目的とする。具体的には、One-to-One関係割り当てとOne-to-Many関係割り当ての組み合わせによるハイブリッド関係割り当て手法を導入し、学習に用いられる正例サンプルの数を大幅に増加させる。さらに、関係予測の重複を抑制するためのHydra Branchを提案し、全体としてより効率的な学習を実現する。
Tóm tắt
本論文は、1段階シーングラフ生成モデルの学習効率向上を目的としている。従来のDETR系1段階モデルでは、各ground truthラベルが1つの予測クエリにのみ割り当てられるOne-to-One関係割り当てが用いられていた。これにより、学習に用いられる正例サンプルが極端に少なくなり、収束が遅くなるという問題があった。
本論文では、以下の2つの手法を提案することで、この問題を解決している:
- ハイブリッド関係割り当て
- One-to-One関係割り当てに加え、One-to-Many関係割り当てを導入する。
- 各ground truthラベルを、IoUが高い複数の予測クエリに割り当てることで、正例サンプルの数を大幅に増加させる。
- Hydra Branch
- 関係予測の重複を抑制するため、self-attentionを持たない補助デコーダを導入する。
- 主デコーダとパラメータを共有し、One-to-Manyの関係割り当てを促進する。
これらの手法を組み合わせることで、Hydra-SGGは従来手法に比べて大幅な学習効率の向上を実現し、VG150、GQA、Open Images V6の各ベンチマークにおいて最先端の性能を達成している。
Thống kê
1つの画像あたりの平均ground truthラベル数は5.5個
従来手法では2.75%の予測クエリしか正例ではなかったが、提案手法では50%以上が正例に
提案手法は従来手法に比べて、わずか12エポックで収束可能
Trích dẫn
"DETR-based SGG models face two challenges: i) Sparse supervision, as each image typically contains fewer than 10 relation annotations, while the models employ over 100 relation queries. ii) False negative samples, since one ground truth relation may have multiple queries with similar matching scores."
"Hydra-SGG achieves state-of-the-art performance with 10.6 mR@20 and 16.0 mR@50 on VG150, while only requiring 12 training epochs."