Основні поняття
Durch die Einführung neuer Benchmarks für Lebensmittelbilder aus dem Alltag (DailyFood-172 und DailyFood-16) und eines einfachen, aber effektiven Baseline-Verfahrens namens Multi-Cluster Reference Learning (MCRL) kann die Übertragbarkeit von auf standardisierten Datensätzen trainierten Lebensmittelerkennungsmodellen auf die Praxis verbessert werden.
Анотація
Der Artikel befasst sich mit der Herausforderung, Lebensmittelerkennungsmodelle, die auf standardisierten Datensätzen wie VIREO Food-172 trainiert wurden, auf Alltagsszenarien zu übertragen. Dafür werden zwei neue Benchmarks, DailyFood-172 und DailyFood-16, eingeführt, die Lebensmittelbilder aus dem täglichen Leben enthalten.
Im Vergleich zu den standardisierten Datensätzen weisen die Bilder in den neuen Benchmarks eine deutlich höhere Varianz innerhalb der Kategorien auf, was zu Herausforderungen bei der Kategoriezuordnung führt. Um diese "Kategorie-Mehrdeutigkeit" zu adressieren, wird das Multi-Cluster Reference Learning (MCRL)-Verfahren vorgestellt. MCRL lernt die Verschiebung zwischen einem bestimmten Zielbild und mehreren Quellclustern gleichzeitig, anstatt sich nur auf eine Kategorie zu konzentrieren.
Die Ergebnisse zeigen, dass MCRL, wenn es mit bestehenden Methoden zur unüberwachten Domänenanpassung kombiniert wird, zu signifikanten Leistungssteigerungen führt. Damit kann die Übertragbarkeit von auf standardisierten Datensätzen trainierten Lebensmittelerkennungsmodellen auf Alltagsszenarien verbessert werden.
Статистика
Die Bilder in VIREO Food-172 zeigen eine hohe Konsistenz innerhalb derselben Kategorie, während die Bilder aus dem Alltag eine deutlich höhere Varianz aufweisen.
DailyFood-172 enthält 42.312 Bilder aus 172 Kategorien, DailyFood-16 enthält 1.695 Bilder aus 16 Kategorien.
Цитати
"Dishes in daily meals generally exhibit higher variance due to the non-standard cooking procedures and the randomness of shooting angles."
"Compared to existing food datasets, our DailyFood series exhibit a notable characteristic of significant intra-class variance, leading to the challenge of "category ambiguity"."