Die Studie präsentiert einen neuartigen Ansatz namens GCAM für die feinkörnige Lebensmittelerkennung. Der Kernpunkt ist die Verwendung eines Gaussian-Verteilungsmodells, um die Aufmerksamkeit des Netzwerks auf die relevanten Objektregionen zu lenken.
Zunächst wird das Feature Gaussian Fusion (FGF)-Modul eingeführt, das das Netzwerk dazu befähigt, die Gaussian-Verteilung der Objektpositionen innerhalb des Bildes zu lernen. Diese Verteilung wird dann genutzt, um die Merkmale des Originalbildes zu verfeinern.
Darüber hinaus wird ein kausaler Aufmerksamkeitsmechanismus (CRA) entwickelt, um die Qualität der Aufmerksamkeit des Netzwerks zu quantifizieren und zu optimieren. Durch den Vergleich von tatsächlichen und kontrafaktischen Szenarien kann der Einfluss der erlernten Aufmerksamkeit auf die Vorhersage analysiert und maximiert werden.
Um die Instabilität des Trainingsprozesses zu reduzieren, wird eine lernbare Verlustfunktionsstrategie (LLS) eingeführt. Dabei wird die Gewichtung der Verluste für die verschiedenen Aufgaben dynamisch angepasst, um eine stabile und effektive Optimierung zu gewährleisten.
Die umfassenden Experimente auf verschiedenen Datensätzen zeigen, dass der vorgeschlagene GCAM-Ansatz den aktuellen Stand der Technik übertrifft und eine effektive Lösung für die feinkörnige Lebensmittelerkennung darstellt.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Guohang Zhua... om arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12109.pdfDiepere vragen