แนวคิดหลัก
Eine Methode zur Anpassung großer, vortrainierter Modelle an verschiedene Ziel-Datensätze mit langer Schwanzverteilung, um diese dann als Lehrmodelle für das Training von binären Netzwerken zu verwenden. Dies ermöglicht eine effiziente Erkennung von Objekten mit langer Schwanzverteilung auf ressourcenbeschränkten Geräten.
บทคัดย่อ
Die Studie befasst sich mit der Herausforderung, Deep-Learning-Modelle in realen Szenarien einzusetzen, insbesondere in Bezug auf Recheneffizienz und die Verteilung von Trainingsdaten in der Realität (z.B. lange Schwänze).
Um diese Herausforderungen anzugehen, schlagen die Autoren einen "Calibrate and Distill"-Ansatz vor, bei dem ein großes, vortrainiertes Modell, das auf ausgewogenen Datensätzen trainiert wurde, als Lehrmodell für das Distillieren von binären Netzwerken auf Datensätzen mit langer Schwanzverteilung verwendet wird.
Um die Generalisierungsfähigkeit auf verschiedene Datensätze zu verbessern, schlagen die Autoren außerdem ein neuartiges adversarisches Ausgleichsverfahren zwischen den Termen in der Zielfunktion und ein effizientes Mehrfachauflösungslernen vor.
Die Autoren führen die umfangreichste empirische Studie der Literatur mit 15 Datensätzen durch, darunter neu abgeleitete Datensätze mit langer Schwanzverteilung aus bestehenden ausgewogenen Datensätzen. Sie zeigen, dass ihr vorgeschlagenes Verfahren die bisherigen Methoden deutlich übertrifft (im Durchschnitt um mehr als 14,33 %).
สถิติ
Die Genauigkeit der binären Netzwerke, die von Grund auf trainiert wurden, beträgt weniger als 16 %, was sehr niedrig ist.
Wenn man stattdessen den Adam-Optimierer ohne Gewichtsverfall verwendet, steigt die Genauigkeit der binären Netzwerke auf über 30 %.
Die Differenz der Klassifikatorgewichtnormen zwischen Kopf- und Schwanzklassen ist bei binären Netzwerken größer als bei vollständig präzisen Netzwerken.
Der vorgeschlagene "Calibrate and Distill"-Ansatz reduziert die Unterschiede der Klassifikatorgewichtnormen zwischen den Klassen deutlich.
คำพูด
"Deploying deep models in real-world scenarios entails a number of challenges, including computational efficiency and real-world (e.g., long-tailed) data distributions."
"To better generalize to various datasets, we further propose a novel adversarial balancing among the terms in the objective function and an efficient multiresolution learning scheme."
"We conducted the largest empirical study in the literature using 15 datasets, including newly derived long-tailed datasets from existing balanced datasets, and show that our proposed method outperforms prior art by large margins (> 14.33% on average)."