Core Concepts
Große Sprachmodelle können unerwünschtes Wissen oder Verhalten aufweisen, das aus Gründen des Datenschutzes, des Urheberrechtsschutzes, der Modellrobustheit oder der Ausrichtung an menschlichen Werten entfernt werden muss. Digitales Vergessen ist ein Ansatz, um solche unerwünschten Aspekte effizient aus den Modellen zu entfernen, ohne sie vollständig neu trainieren zu müssen.
Abstract
Dieser Artikel gibt einen Überblick über digitales Vergessen in großen Sprachmodellen. Er beginnt mit einer Einführung in die Komponenten und Trainingsmethoden von großen Sprachmodellen. Anschließend werden die Motivationen für digitales Vergessen, wie Datenschutz, Urheberrechtsschutz, Modellrobustheit und Ausrichtung an menschlichen Werten, diskutiert. Es werden verschiedene Arten des digitalen Vergessens vorgestellt, wie das Entfernen einzelner Datenpunkte, Konzepte oder ganzer Aufgaben. Daraufhin werden die Anforderungen an digitales Vergessen, wie Garantien, Generalisierung, Leistungserhaltung und Skalierbarkeit, erläutert.
Der Hauptteil des Artikels widmet sich einer detaillierten Taxonomie von Methoden zum Verlernen in großen Sprachmodellen. Diese Methoden werden in vier Hauptkategorien eingeteilt: globale Gewichtsmodifikation, lokale Gewichtsmodifikation, Architekturmodifikation und Eingabe-/Ausgabemodifikation. Jede Kategorie wird anhand konkreter Ansätze wie Data Sharding, Gradientenanstieg, lokales Nachtraining oder Informationsrückgewinnung weiter unterteilt und erläutert.
Abschließend werden Herausforderungen und mögliche Lösungen für digitales Vergessen in großen Sprachmodellen diskutiert, wie Garantien, Leistungserhaltung, Generalisierung, Laufzeit und Skalierbarkeit, Evaluierung sowie die Anwendbarkeit der verschiedenen Methoden.
Stats
Keine relevanten Statistiken oder Kennzahlen identifiziert.
Quotes
Keine relevanten Zitate identifiziert.