Instruktionsgesteuerte Text-zu-Bild-Diffusionsmodelle als universelle Bildverarbeitungsagenten
Instruktionsgesteuerte Text-zu-Bild-Diffusionsmodelle können verschiedene Computervisionaufgaben wie Segmentierung, Objekterkennung, Tiefenschätzung und Klassifizierung in einem einheitlichen Rahmen ausführen, indem sie natürlichsprachliche Anweisungen als Eingabe verwenden.