Ein effizientes Framework namens SGENet, das eine leistungsfähige Szenentext-Bild-Super-Auflösung mit geringem Rechenaufwand ermöglicht, indem es semantische Führung und visuelle-semantische Ausrichtung nutzt.
DetDiffusion, ein neuartiger Ansatz, der die Synergie zwischen generativen und perzeptiven Modellen nutzt, um die Qualität der Bilderzeugung zu verbessern und die Leistung von Wahrnehmungsmodellen zu steigern.
DetDiffusion, ein neuartiger Ansatz, der die Synergie zwischen generativen und perzeptiven Modellen nutzt, um die Qualität der Bildgenerierung zu verbessern und die Leistung von Wahrnehmungsmodellen zu steigern.
Unser Ansatz behandelt die Kameraposenschätzung als Aufgabe, Kamerastrophäre vorherzusagen, anstatt direkt globale Kameraparameter zu schätzen. Dies ermöglicht eine enge Kopplung mit räumlichen Bildmerkmalen und führt zu genaueren Vorhersagen, insbesondere in Situationen mit spärlichen Ansichten.
Unser Verfahren extrahiert effektiv Wissen aus einem vortrainierten Modell für Pinhole-Bilder und überträgt dieses Wissen auf das Zielmodell für panoramische Bilder, ohne Zugriff auf die Quelldaten zu haben.
Das vorgeschlagene hybride Modell, das Selbstaufmerksamkeit und BiLSTM-Ansätze kombiniert, erzielt eine deutlich höhere Genauigkeit bei der Alters- und Geschlechtsklassifizierung im Vergleich zu anderen State-of-the-Art-Modellen.
Ein vollständig selbstüberwachtes Verfahren zur Konstruktion eines kanonischen Parameterraums, um Informationen aus mehreren Ansichten ganzheitlich zu integrieren und zu nutzen, um eine genauere 3D-Körperhaltungsschätzung zu ermöglichen.
Entity6K ist ein umfassendes Datensatz für die Erkennung von Realwelt-Entitäten, der 5.700 Entitäten in 26 Kategorien mit jeweils 5 manuell überprüften Bildern und Annotationen enthält. Der Datensatz soll die Leistungsfähigkeit von Modellen bei der Erkennung von Entitäten in offenen Domänen evaluieren.
Der GT-Rain-Wettbewerb zielt darauf ab, innovative Ideen zur Weiterentwicklung von Methoden zur Entfernung von Regenwetter-Effekten aus Einzelbildern in Echtzeit-Szenarien zu fördern.
AISFormer ist ein Amodal Instance Segmentation (AIS) Framework, das Transformer-basierte Maskenköpfe verwendet, um die komplexe Kohärenz zwischen Verdeckern, sichtbaren, amodalen und unsichtbaren Masken innerhalb einer Region of Interest (ROI) explizit zu modellieren, indem es sie als lernbare Abfragen behandelt.