本論文は、ゼロショット参照表現理解の問題に取り組んでいる。
参照表現理解とは、画像中の対応する領域を特定するタスクである。
著者らは以下の2つのアプローチを提案している:
実験の結果、提案手法は RefCOCO/+/g データセットにおいて最先端手法を19.5%上回る性能を達成し、Who's Waldo データセットでは教師あり手法と同等の精度を達成した。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Zeyu Han,Fan... às arxiv.org 03-29-2024
https://arxiv.org/pdf/2311.17048.pdfPerguntas Mais Profundas