Einheitliche visuelle Darstellung ermöglicht Großsprachmodellen das Verständnis von Bildern und Videos
Die einheitliche visuelle Darstellung von Bildern und Videos ermöglicht Großsprachmodellen ein effizientes Verständnis beider Medien mit einer begrenzten Anzahl von visuellen Token.