Ein Bildgitter kann mehr wert sein als ein Video: Nullschuss-Videofragebeantwortung unter Verwendung eines VLM
Ein einfacher, aber neuartiger Ansatz, bei dem nur ein einziges Vision Language Model (VLM) verwendet wird, kann die bestehenden Methoden in neun von zehn Benchmarks übertreffen.