HAMMR ist ein hierarchischer und multimodaler Ansatz, der die Leistungsfähigkeit des LLM+Tools-Ansatzes für die generische visuelle Fragebeant-wortung verbessert, indem spezialisierte Agenten als Werkzeuge wiederverwendet werden.
Unser Modell generiert intrinsisch einen relevanten Subgraphen als Erklärung für die Vorhersage der Antwort, um die Interpretierbarkeit von Graph-basierten visuellen Fragebeant-wortungssystemen zu erhöhen.