本論文は、Transformer ベースの視覚的関係検出モデルの訓練における2つの主要な課題に取り組んでいる。
そこで本論文では以下の2つの手法を提案する:
これらの手法を組み合わせた提案手法 SpeaQ を適用することで、Transformer ベースの視覚的関係検出モデルの性能が一貫して向上することが示されている。特に、一般的な関係と希少な関係の両方で優れた性能を発揮し、従来の手法では達成できなかった両指標の最高性能を実現している。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jongha Kim,J... alle arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17709.pdfDomande più approfondite