Das Text-IF-Modell besteht aus zwei Hauptteilen: der Bildfusionspipeline und der Textinteraktionsführungsarchitektur.
In der Bildfusionspipeline verwenden wir einen Transformer-basierten Bildextraktionsblock und eine Kreuzfusionsschicht, um hochwertige Fusionsmerkmale zu extrahieren.
In der Textinteraktionsführungsarchitektur nutzen wir einen Text-Semantik-Encoder, um die Textinformationen in semantische Merkmale umzuwandeln. Dann interagieren diese Textmerkmale über ein semantisches Interaktionsführungsmodul (SIGM) mit den Bildfusionsmerkmalen, um eine textgeführte Bildfusion zu erreichen.
Durch die Kopplung von Textsemantikinformationen und Bildfusionsfunktionen kann das Text-IF-Modell nicht nur verschiedene Degradationen in den Quellbildern behandeln, sondern auch interaktive und benutzerdefinierte Fusionsergebnisse liefern, ohne dass Experten-Vorkenntnisse oder vordefinierte Regeln erforderlich sind.
Umfangreiche Experimente zeigen, dass das vorgeschlagene Text-IF-Modell im Vergleich zu state-of-the-art-Methoden deutliche Vorteile bei der Bildverarbeitungsleistung und der Degradationsbehandlung aufweist.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Xunpeng Yi,H... klo arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16387.pdfSyvällisempiä Kysymyksiä