核心概念
本論文では、Transformer ベースの視覚的関係検出モデルの訓練において、クエリを特定の関係グループに特化させることで、モデルの能力を効果的に活用する手法を提案する。また、高品質な予測に対して複数のグラウンドトゥルースを割り当てることで、より豊富な訓練信号を提供する。
摘要
本論文は、Transformer ベースの視覚的関係検出モデルの訓練における2つの主要な課題に取り組んでいる。
- 従来の訓練では、クエリが全ての関係を検出するよう期待されるため、特定の関係に特化することが困難である。
- 従来の訓練では、グラウンドトゥルースが1つの予測にしか割り当てられないため、正解に近い予測が「無関係」として扱われ、適切な訓練信号が得られない。
そこで本論文では以下の2つの手法を提案する:
- グループ別クエリ特化: クエリとグラウンドトゥルースの関係を特定のグループに限定することで、クエリを特化させる。
- 品質認識マルチアサイメント: 主体、対象、関係の予測品質を考慮して、グラウンドトゥルースを複数の高品質な予測に割り当てる。
これらの手法を組み合わせた提案手法 SpeaQ を適用することで、Transformer ベースの視覚的関係検出モデルの性能が一貫して向上することが示されている。特に、一般的な関係と希少な関係の両方で優れた性能を発揮し、従来の手法では達成できなかった両指標の最高性能を実現している。
统计
約45%の高品質な予測が「無関係」として扱われている
Visual Genome データセットでは、関係の頻度分布が長尾分布となっている
引用
「クエリが全ての関係を検出するよう期待されるため、特定の関係に特化することが困難である」
「正解に近い予測が『無関係』として扱われ、適切な訓練信号が得られない」