Vereinheitlichter und ausgewogener Darstellungsraum für die Bindung verschiedener Modalitäten mithilfe von LLM-Unterstützung
Unser UniBind lernt einen modality-agnostischen und ausgewogenen Darstellungsraum, indem es die Ausrichtungszentren mithilfe von Großsprachmodellen (LLMs) und multimodalen Großsprachmodellen (multimodalen LLMs) konstruiert.