Die Studie untersucht einen grundlegenden Aspekt des maschinellen Sehens: die Messung von Merkmalen, indem sie das Clustering, einen der klassischsten Ansätze im maschinellen Lernen und in der Datenanalyse, überdenkt. Bestehende visuelle Merkmalsextraktoren, einschließlich ConvNets, ViTs und MLPs, stellen ein Bild als rechteckige Regionen dar. Obwohl weit verbreitet, basiert dieses Raster-Paradigma auf Ingenieurtechniken und fehlt eine explizite Modellierung der Datenverteilung. In dieser Arbeit schlagen wir die Merkmalsextraktion mit Clustering (FEC) vor, ein konzeptionell elegantes, aber überraschend ad-hoc interpretierbares neuronales Clustering-Framework, das die Merkmalsextraktion als einen Prozess des Auswählens von Vertretern aus Daten betrachtet und damit automatisch die zugrunde liegende Datenverteilung erfasst. Gegebenes ein Bild wechselt FEC zwischen dem Gruppieren von Pixeln in individuelle Cluster, um Vertreter zu abstrahieren, und dem Aktualisieren der tiefen Merkmale der Pixel mit den aktuellen Vertretern. Dieser iterative Arbeitsmechanismus wird in Form mehrerer neuronaler Schichten implementiert, und die endgültigen Vertreter können für nachgelagerte Aufgaben verwendet werden. Die Cluster-Zuweisungen über die Schichten hinweg, die von Menschen eingesehen und inspiziert werden können, machen den Vorwärtsprozess von FEC vollständig transparent und verleihen ihm eine vielversprechende ad-hoc-Interpretierbarkeit. Umfangreiche Experimente auf verschiedenen visuellen Erkennungsmodellen und -aufgaben bestätigen die Effektivität, Allgemeingültigkeit und Interpretierbarkeit von FEC. Wir erwarten, dass diese Arbeit ein Umdenken des derzeitigen de facto Raster-Paradigmas anregen wird.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Guikun Chen,... klokken arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17409.pdfDypere Spørsmål