Instruktionsgesteuerte Text-zu-Bild-Diffusionsmodelle als universelle Bildverarbeitungsagenten
InstructCV ist ein einheitliches Modell, das verschiedene Computervisionaufgaben wie Segmentierung, Objekterkennung, Tiefenschätzung und Klassifizierung durch Ausführen natürlichsprachlicher Anweisungen bewältigt. Das Modell nutzt einen instruktionsgesteuerten Text-zu-Bild-Diffusionsansatz, um eine universelle Schnittstelle für Visionaufgaben zu schaffen.