Der Artikel stellt ein neuartiges Rahmenwerk für implizite und explizite Sprachführung für diffusionsbasierte visuelle Wahrnehmung vor, genannt IEDP. IEDP besteht aus zwei Zweigen: einem impliziten Sprachführungszweig und einem expliziten Sprachführungszweig.
Der implizite Zweig verwendet einen gefrorenen CLIP-Bildencoder, um direkt implizite Texteinbettungen zu erzeugen, die dem Diffusionsmodell zur Bedingung der Merkmalsextraktion zugeführt werden. Der explizite Zweig verwendet die Grundwahrheitsetiketten der entsprechenden Trainingsbilder als explizite Textaufforderungen, um die Merkmalsextraktion des Diffusionsmodells zu bedingen. Während des Trainings werden diese beiden Zweige gemeinsam trainiert, indem die Modellgewichte geteilt werden. Während der Inferenz wird nur der implizite Zweig verwendet, da die Grundwahrheitsetiketten der Testbilder nicht verfügbar sind.
Die Experimente auf semantischer Segmentierung und Tiefenschätzung zeigen, dass IEDP im Vergleich zu anderen diffusionsbasierten Methoden eine überlegene Leistung erzielt. Zum Beispiel erreicht IEDP einen mIoUss-Wert von 55,9 % auf dem ADE20K-Datensatz, was eine Verbesserung von 2,2 % gegenüber der Baseline-Methode VPD darstellt. Für die Tiefenschätzung übertrifft IEDP VPD mit einem relativen Gewinn von 10,2 % bei der RMSE-Metrik.
翻譯成其他語言
從原文內容
arxiv.org
深入探究