Der Artikel stellt ein effizientes Modell für die Szenentext-Bild-Super-Auflösung vor, das SGENet genannt wird. Es besteht aus zwei Zweigen: einem Super-Auflösungszweig und einem semantischen Führungszweig.
Im semantischen Führungszweig wird ein leichtgewichtiger, vortrainierter Texterkenner verwendet, um die Textverteilung zu erzeugen. Diese Textverteilung und die flachen visuellen Merkmale werden dann in einem Ausrichtungsmodul verwendet, um eine hochwertige semantische Führung zu generieren.
Im Super-Auflösungszweig werden die flachen Merkmale und die semantische Führung kombiniert, um den Super-Auflösungsprozess zu leiten. Durch den Einsatz eines leichtgewichtigen Texterkenners und die Reduzierung redundanter Blöcke im Super-Auflösungszweig erreicht SGENet eine hervorragende Leistung bei deutlich geringerem Rechenaufwand im Vergleich zu anderen Methoden.
Die Experimente auf dem TextZoom-Datensatz zeigen, dass SGENet eine gute Balance zwischen Leistung und Effizienz bietet und somit eine praktikable Wahl für Szenentext-Bild-Super-Auflösungsaufgaben darstellt.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by LeoWu TomyEn... a las arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13330.pdfConsultas más profundas