Der Artikel stellt ein effizientes Modell für die Szenentext-Bild-Super-Auflösung vor, das SGENet genannt wird. Es besteht aus zwei Zweigen: einem Super-Auflösungszweig und einem semantischen Führungszweig.
Im semantischen Führungszweig wird ein leichtgewichtiger, vortrainierter Texterkenner verwendet, um die Textverteilung zu erzeugen. Diese Textverteilung und die flachen visuellen Merkmale werden dann in einem Ausrichtungsmodul verwendet, um eine hochwertige semantische Führung zu generieren.
Im Super-Auflösungszweig werden die flachen Merkmale und die semantische Führung kombiniert, um den Super-Auflösungsprozess zu leiten. Durch den Einsatz eines leichtgewichtigen Texterkenners und die Reduzierung redundanter Blöcke im Super-Auflösungszweig erreicht SGENet eine hervorragende Leistung bei deutlich geringerem Rechenaufwand im Vergleich zu anderen Methoden.
Die Experimente auf dem TextZoom-Datensatz zeigen, dass SGENet eine gute Balance zwischen Leistung und Effizienz bietet und somit eine praktikable Wahl für Szenentext-Bild-Super-Auflösungsaufgaben darstellt.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by LeoWu TomyEn... alle arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13330.pdfDomande più approfondite