Belangrijkste concepten
Durch die Zerlegung von Vorwärtsnetzen in diskrete Speicherzellen und das Erlernen einer Speicherzuordnung können neue Aufgaben effektiv erlernt und Katastrophales Vergessen verhindert werden.
Samenvatting
Die Studie präsentiert eine neue Methode namens F-MALLOC (Feed-forward Memory ALLOCation) für kontinuierliches Lernen (Continual Learning, CL) in Neuronaler Maschineller Übersetzung (Neural Machine Translation, NMT).
Zunächst wird eine strukturelle Pruning-Methode verwendet, um die Vorwärtsnetze eines vortrainierten NMT-Modells zu reduzieren und wichtige Speicherzellen zu erhalten, die allgemeines Domänenwissen repräsentieren. Anschließend lernt F-MALLOC eine Reihe von nicht-exklusiven Aufgabenmasken, um die "beschreibbaren" Speicherkapazitäten dynamisch neuen Aufgaben zuzuweisen. Die so zugewiesenen Speicher werden dann als "schreibgeschützt" markiert, um ein Vergessen zu verhindern.
Im Vergleich zu bestehenden CL-Methoden zeigt F-MALLOC eine überlegene Leistung bei der Verhinderung von Vergessen und der Anpassung an neue Aufgaben. Darüber hinaus führt die Analyse der adaptiven Speicherzuordnungsstrategie von F-MALLOC zu einem besseren Verständnis der Nutzung von Aufgabenschwierigkeiten und Ähnlichkeiten zwischen Aufgaben, um die Kapazitätsnutzung zu optimieren und den Wissenstransfer zu fördern.
Statistieken
Koran-Domäne hat 17.000 Trainingsbeispiele.
Law-Domäne hat 467.000 Trainingsbeispiele.
Medical-Domäne hat 6.900.000 Trainingsbeispiele.
Subtitles-Domäne hat 6.250.000 Trainingsbeispiele.
IT-Domäne hat 223.000 Trainingsbeispiele.
Citaten
"Durch die Zerlegung von Vorwärtsnetzen in diskrete Speicherzellen und das Erlernen einer Speicherzuordnung können neue Aufgaben effektiv erlernt und Katastrophales Vergessen verhindert werden."
"F-MALLOC zeigt eine überlegene Leistung bei der Verhinderung von Vergessen und der Anpassung an neue Aufgaben."