Interaktives regionales Verständnis in Vision-Large Language Modellen
Unser Modell RegionVLM ermöglicht ein interaktives Dialogsystem, indem es die explizite Angabe von Bildregionen durch den Benutzer versteht und darauf reagiert. Darüber hinaus zeigt unser Modell überlegene Leistungen bei verschiedenen Nullschuss-Aufgaben zum regionalen Verständnis, ohne die Fähigkeit zum globalen Bildverständnis zu beeinträchtigen.