本論文は、Transformer ベースの視覚的関係検出モデルの訓練における2つの主要な課題に取り組んでいる。
そこで本論文では以下の2つの手法を提案する:
これらの手法を組み合わせた提案手法 SpeaQ を適用することで、Transformer ベースの視覚的関係検出モデルの性能が一貫して向上することが示されている。特に、一般的な関係と希少な関係の両方で優れた性能を発揮し、従来の手法では達成できなかった両指標の最高性能を実現している。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Jongha Kim,J... às arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17709.pdfPerguntas Mais Profundas