Core Concepts
Ein kleines Bildtext-Modell kann durch Erlernen von Zwischenschritten aus externen Tools und LLMs effizient visuelle Dokumente verstehen.
Abstract
Der Artikel beschreibt einen Ansatz zur effizienten visuellen Dokumentenverarbeitung, bei dem ein kleines Bildtext-Modell Zwischenschritte (Rationale) aus externen Tools und großen Sprachmodellen (LLMs) erlernt, um dann die Antwort auf Benutzerfragen vorherzusagen.
Kernpunkte:
Visuelle Dokumentenverständnis (VDU) erfordert das Erkennen und Verknüpfen von Text und Layout, um Benutzeranfragen zu beantworten.
Bisherige Ansätze nutzen externe Tools wie optische Zeichenerkennung (OCR) und LLMs, was aber die Recheneffizienz und Komplexität erhöht.
Der vorgeschlagene Ansatz "Rationale Distillation" (RD) lässt ein kleines Bildtext-Modell die Zwischenschritte (Rationale) von den externen Tools erlernen, um dann die Antwort vorherzusagen.
RD führt zu Genauigkeitsverbesserungen von 4-8 Punkten auf drei VDU-Benchmarks, bei nur 1% höheren Rechenkosten als direkte Vorhersage-Modelle.
Analyse zeigt, dass RD besonders bei Fragen zu Textbelegen und Tabellen hilft, und dass ein Abstimmungsverfahren bei der Inferenz weitere Verbesserungen bringt.
Stats
"Insufficient oxygen to support human life 26,000 ft"
"34.12% | 65.88%"
Quotes
"Verstehen von visuell situierter Sprache erfordert die Interpretation komplexer Layouts von Text- und Bildelementen."
"Können kleine vortrainierte Bild-zu-Text-Modelle visuelle Dokumente durch ähnliche Erkennungs- und Schlussfolgerungsschritte genau verstehen?"