In dieser Arbeit präsentieren die Autoren ein modulares Integer-Quantisierungsschema für Gated Recurrent Units (GRUs), bei dem die Bitbreite jedes einzelnen Operators unabhängig ausgewählt werden kann. Sie verwenden dann Genetische Algorithmen (GA), um den riesigen Suchraum möglicher Bitbreiten zu erforschen und dabei gleichzeitig die Modellgenauigkeit und -größe zu optimieren.
Die Autoren evaluieren ihre Methode auf vier verschiedenen sequentiellen Aufgaben und zeigen, dass gemischte Präzisionslösungen homogene Präzisionslösungen in Bezug auf die Pareto-Effizienz übertreffen. Ihre Ergebnisse zeigen eine Modellgrößenreduzierung zwischen 25% und 55%, während die Genauigkeit mit der 8-Bit-Homogenäquivalenz vergleichbar bleibt.
Das vorgeschlagene Quantisierungsschema umfasst lineare Schichten, elementweise Summen und Produkte sowie Aktivierungsfunktionen. Für jede Operation wird ein eigenes Quantisierungsschema definiert, um eine gemischte Präzision zu ermöglichen. Anschließend verwenden die Autoren den NSGA-II-Algorithmus, um den Suchraum möglicher Bitbreiten-Kombinationen zu durchsuchen und dabei die Modellgenauigkeit und -größe als Ziele zu optimieren.
Die Ergebnisse zeigen, dass die gemischten Präzisionslösungen die homogenen Baselines in Bezug auf Pareto-Effizienz übertreffen. Die Autoren beobachten auch, dass sich bestimmte Quantisierungsmuster in den besten Lösungen herauskristallisieren, was die Notwendigkeit einer maßgeschneiderten Quantisierung bestätigt.
To Another Language
from source content
arxiv.org
Deeper Inquiries