Der Artikel präsentiert CLIPtone, einen neuartigen, unüberwachten Ansatz zur textbasierten Bildtonkorrektur.
Bisherige Methoden zur Bildtonkorrektur basieren überwiegend auf überwachtem Lernen und erfordern aufwendig erstellte Datensätze mit Paaren von Originalbildern und deren expertengepflegten Versionen. Dies führt zu hohen Kosten und beschränkt die Anpassungen auf die im Datensatz enthaltenen Varianten.
Um diese Herausforderungen zu überwinden, nutzt CLIPtone das CLIP-Modell, das auf einer Vielzahl von Bild-Text-Paaren trainiert wurde und somit menschliche Wahrnehmung widerspiegelt. Konkret erweitert CLIPtone ein bestehendes Bildverbesserungsmodell, um es durch ein Hypernetwork adaptiv an Textbeschreibungen anzupassen. Zur unüberwachten Optimierung führt CLIPtone einen CLIP-basierten Verlust und Regularisierungen ein.
CLIPtone zeichnet sich durch mehrere Vorteile aus: Minimaler Datenaufwand, Unterstützung einer Vielzahl von Anpassungen und die Fähigkeit, neuartige Textbeschreibungen zu verarbeiten. Umfassende Experimente belegen die Effektivität und Effizienz des Ansatzes im Vergleich zu bestehenden Methoden.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Hyeongmin Le... às arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01123.pdfPerguntas Mais Profundas