Verbesserung der objektorientierten Wahrnehmung von Multimodalen Großsprachmodellen durch Joint Visual und Text Prompting
Durch die Integration von visuellen und textuellen Prompts kann die Leistung von Multimodalen Großsprachmodellen bei objektorientierten Wahrnehmungsaufgaben deutlich verbessert werden.