HRVDA ist ein neuartiges multimodales Sprachmodell, das speziell für die effiziente Verarbeitung und Analyse von hochauflösenden Dokumentenbildern entwickelt wurde. Es verwendet einen Inhaltsfilter-Mechanismus und ein Instruktions-Filtermodul, um redundante visuelle Tokens zu entfernen und die Leistung und Effizienz bei der Dokumentenanalyse zu verbessern.
LayoutLLM ist eine auf großen Sprachmodellen basierende Methode, die eine Layout-basierte Instruktionsoptimierung nutzt, um das Verständnis und die Nutzung von Dokumentenlayouts zu verbessern. Dies führt zu signifikanten Leistungssteigerungen bei Nullshot-Dokumentenverständnisaufgaben.
GRAM, eine Methode, die nahtlos vorgefertigte Einzelseiten-Modelle auf den Mehrseitenkontext erweitert, ohne aufwendiges Vortraining zu erfordern. GRAM kombiniert einen Einzelseiten-Encoder für lokales Seitenverständnis mit dokumentspezifischen Schichten und lernbaren Tokens, um den Informationsfluss über Seiten hinweg für globales Schlussfolgern zu ermöglichen.
Ein innovatives Modell für das Verständnis visuell reicher Formdokumente durch multimodales, multi-task, multi-teacher Wissensvermittlung.