In dieser Arbeit untersuchen wir das Problem der Erkennung von Daten außerhalb der Verteilung (OOD) in Textklassifizierungsaufgaben unter Verwendung von Transformer-basierten Sprachmodellen. Wir identifizieren ein zentrales Problem in bestehenden OOD-Erkennungsmethoden: Die durch die Maximierung der bedingten Wahrscheinlichkeit p(y|x) erlernte verzerrte Darstellung kann zu einer suboptimalen Leistung führen.
Um dies zu adressieren, schlagen wir ein neuartiges variationelles Inferenz-Framework namens VI-OOD vor, das stattdessen die gemeinsame Verteilung p(x, y) optimiert. VI-OOD nutzt effizient die Darstellungen von vortrainierten Transformers für Textdaten. Umfangreiche Experimente auf verschiedenen Textklassifizierungsaufgaben zeigen die Wirksamkeit und breite Anwendbarkeit von VI-OOD.
Insbesondere zeigen unsere Analysen, dass die Zwischenschichten-Darstellungen von Transformers wertvolle Informationen für die OOD-Erkennung enthalten, die bei der reinen Maximierung von p(y|x) übersehen werden können. Unser VI-OOD-Framework kann diese Informationen effektiv nutzen, um die Leistung gängiger OOD-Erkennungsalgorithmen, insbesondere distanzbasierter Methoden wie Mahalanobis-Distanz, konsistent zu verbessern.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Li-Ming Zhan... في arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.06217.pdfاستفسارات أعمق