Das Text-IF-Modell besteht aus zwei Hauptteilen: der Bildfusionspipeline und der Textinteraktionsführungsarchitektur.
In der Bildfusionspipeline verwenden wir einen Transformer-basierten Bildextraktionsblock und eine Kreuzfusionsschicht, um hochwertige Fusionsmerkmale zu extrahieren.
In der Textinteraktionsführungsarchitektur nutzen wir einen Text-Semantik-Encoder, um die Textinformationen in semantische Merkmale umzuwandeln. Dann interagieren diese Textmerkmale über ein semantisches Interaktionsführungsmodul (SIGM) mit den Bildfusionsmerkmalen, um eine textgeführte Bildfusion zu erreichen.
Durch die Kopplung von Textsemantikinformationen und Bildfusionsfunktionen kann das Text-IF-Modell nicht nur verschiedene Degradationen in den Quellbildern behandeln, sondern auch interaktive und benutzerdefinierte Fusionsergebnisse liefern, ohne dass Experten-Vorkenntnisse oder vordefinierte Regeln erforderlich sind.
Umfangreiche Experimente zeigen, dass das vorgeschlagene Text-IF-Modell im Vergleich zu state-of-the-art-Methoden deutliche Vorteile bei der Bildverarbeitungsleistung und der Degradationsbehandlung aufweist.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Xunpeng Yi,H... às arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16387.pdfPerguntas Mais Profundas