Die Studie präsentiert einen neuartigen Ansatz namens GCAM für die feinkörnige Lebensmittelerkennung. Der Kernpunkt ist die Verwendung eines Gaussian-Verteilungsmodells, um die Aufmerksamkeit des Netzwerks auf die relevanten Objektregionen zu lenken.
Zunächst wird das Feature Gaussian Fusion (FGF)-Modul eingeführt, das das Netzwerk dazu befähigt, die Gaussian-Verteilung der Objektpositionen innerhalb des Bildes zu lernen. Diese Verteilung wird dann genutzt, um die Merkmale des Originalbildes zu verfeinern.
Darüber hinaus wird ein kausaler Aufmerksamkeitsmechanismus (CRA) entwickelt, um die Qualität der Aufmerksamkeit des Netzwerks zu quantifizieren und zu optimieren. Durch den Vergleich von tatsächlichen und kontrafaktischen Szenarien kann der Einfluss der erlernten Aufmerksamkeit auf die Vorhersage analysiert und maximiert werden.
Um die Instabilität des Trainingsprozesses zu reduzieren, wird eine lernbare Verlustfunktionsstrategie (LLS) eingeführt. Dabei wird die Gewichtung der Verluste für die verschiedenen Aufgaben dynamisch angepasst, um eine stabile und effektive Optimierung zu gewährleisten.
Die umfassenden Experimente auf verschiedenen Datensätzen zeigen, dass der vorgeschlagene GCAM-Ansatz den aktuellen Stand der Technik übertrifft und eine effektive Lösung für die feinkörnige Lebensmittelerkennung darstellt.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Guohang Zhua... pada arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12109.pdfPertanyaan yang Lebih Dalam