本論文は、ゼロショット参照表現理解の問題に取り組んでいる。
参照表現理解とは、画像中の対応する領域を特定するタスクである。
著者らは以下の2つのアプローチを提案している:
実験の結果、提案手法は RefCOCO/+/g データセットにおいて最先端手法を19.5%上回る性能を達成し、Who's Waldo データセットでは教師あり手法と同等の精度を達成した。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Zeyu Han,Fan... في arxiv.org 03-29-2024
https://arxiv.org/pdf/2311.17048.pdfاستفسارات أعمق