Ein Blick-basierter Datensatz für visuelle Fragebeantworung zur Klärung mehrdeutiger japanischer Fragen
Dieser Datensatz zielt darauf ab, Mehrdeutigkeiten in menschlichen Fragen unter Verwendung von Blickinformationen des Sprechers zu verstehen. Das vorgeschlagene Modell integriert die Zielregion des Blicks als zusätzliche Information neben Bildern und Fragen, um die Genauigkeit der Beantwortung mehrdeutiger Fragen zu verbessern.