Die Leistung einfacher Basislinien-Architekturen wie U-Net übertrifft oft die komplexen, speziell entwickelten Methoden zur Veränderungserkennung.
Der ChangeNet-Datensatz bietet eine große Menge an Multitemporalaufnahmen mit komplexen Szenen und realistischen Verzerrungen, um die praktische Anwendung von Veränderungserkennungsalgorithmen zu fördern.
FoodLMM ist ein vielseitiger Küchenassistent, der auf großen multimodalen Modellen basiert und verschiedene Fähigkeiten wie Lebensmittelerkennung, Zutatenidentifikation, Rezeptgenerierung, Nährwertschätzung, Lebensmittelsegmentierung und Mehrrunden-Konversation besitzt.
Trotz der hohen Rechenkosten von Transformatoren haben sie sich in der Sprach- und Bildverarbeitung als effektiv erwiesen. Dieser Beitrag präsentiert einen umfassenden Benchmark von über 30 Modellen zur Bildklassifizierung, der die Effizienz in Bezug auf Genauigkeit, Geschwindigkeit und Speicherverbrauch evaluiert. Die Ergebnisse zeigen, dass der ViT-Basisansatz trotz Behauptungen anderer Modelle über eine höhere Effizienz in mehreren Metriken Pareto-optimal bleibt. Hybride Aufmerksamkeits-CNN-Modelle erweisen sich als bemerkenswert speicher- und parametereffizient. Darüber hinaus zeigt der Benchmark, dass die Verwendung eines größeren Modells im Allgemeinen effizienter ist als die Verwendung höherer Bildauflösungen.
Unser Ansatz ermöglicht die Erstellung großflächiger Karten aus feingranularen Textbeschreibungen, ohne dass dafür spezifische Modelle trainiert werden müssen.
Das vorgeschlagene RDFC-GAN-Modell nutzt eine zweistufige Architektur, um aus unvollständigen Tiefenkarten und RGB-Bildern detaillierte und texturierte Tiefenkarten für Innenräume zu generieren.
Systematische Generalisierung ist eine große Herausforderung für Modelle zur Erkennung von Mensch-Objekt-Interaktionen.
Dieser Artikel gibt einen umfassenden Überblick über Deep Learning-basierte Methoden zur Single-Image Super-Resolution (SISR). Die Autoren kategorisieren die Methoden nach ihren spezifischen Zielen und untersuchen sie detailliert, um Forschern ein besseres Verständnis von SISR zu vermitteln und neue Forschungsrichtungen zu inspirieren.
Eine zuverlässige Methode zur Gesichtserkennung mit Masken, die auf dem Entfernen der verdeckten Gesichtsregionen und der Extraktion tiefer lernbasierter Merkmale basiert.
Diese Studie bietet eine umfassende Bewertung der Robustheit von Zellinstanzsegmentierungsmodellen unter simulierten optischen Aberrationen des Mikroskops.