Supervised Feinabstimmung (ViSFT) kann die Leistung von visuellen Grundlagenmodellen über verschiedene Benchmarks hinweg verbessern.
Die Architektur von Convolutional Neural Networks (CNNs) kann als Initialisierungsverzerrung in Vision Transformers (ViTs) interpretiert werden. Durch eine strukturierte Initialisierung der Aufmerksamkeitskarten in ViTs können die induktiven Voreinstellungen von CNNs eingebettet werden, ohne die architektonische Flexibilität von Transformers zu beeinträchtigen.
Bestehende Modelle zur zeitlichen Handlungserkennung sind besonders anfällig für zeitliche Verzerrungen, unabhängig davon, ob sie auf Transformern oder CNNs basieren. Die Verletzbarkeit resultiert hauptsächlich aus Lokalisierungsfehlern und ist am stärksten, wenn Verzerrungen in der Mitte einer Handlung auftreten.
Diese Dissertation präsentiert verschiedene Ansätze, um Herausforderungen der Robustheit und Erklärbarkeit bei der praktischen Anwendung von Maschinen- und Tiefenlernmodellen in der Computervision zu adressieren.
Das DIS-SAM-Modell verbessert die Segmentierungsgenauigkeit des Segment Anything Modells (SAM) erheblich, indem es SAM mit einem speziell für die hochpräzise Segmentierung entwickelten IS-Net kombiniert.
Ein neuartiger Ansatz zum effizienten Training und Inferenz hochauflösender Vision-Transformers, bei dem die meisten Eingabetokens während des Trainings maskiert werden, um lokale und globale Interaktionen zwischen Tokens zu lernen.
Die Berücksichtigung der Auswirkungen von Tokenumwandlungen ist entscheidend, um die Rationale hinter den Vorhersagen von Vision Transformern genau zu verstehen. Unser vorgeschlagenes TokenTM-Verfahren integriert sowohl Aufmerksamkeitsgewichte als auch Tokenumwandlungseffekte, um zuverlässigere Post-hoc-Erklärungen zu liefern.