核心概念
Ein neuartiger Ansatz zur mehrsprachigen Texterkennung in Szenenbildern, der ohne zusätzliches Trainingsmaterial für neue Sprachen auskommt und dennoch vergleichbare Ergebnisse wie überwachte Methoden erzielt.
摘要
Die Autoren stellen ein neues Problem für die generalisierbare mehrsprachige Texterkennung in Szenenbildern vor. Herkömmliche Methoden erfordern umfangreiche Trainingsdaten für jede Sprache und müssen bei neuen Sprachen aufwendig nachtrainiert werden.
Um diese Herausforderungen zu adressieren, präsentieren die Autoren "MENTOR", einen neuartigen Ansatz, der eine Lernstrategie zwischen Zero-Shot-Learning und Few-Shot-Learning realisiert. Während der Trainingsphase lernt das Modell eine Meta-Abbildung von gedruckten Texten auf sprachspezifische Kerngewichte. Zusammen mit einem dynamischen Faltungsnetzwerk kann MENTOR dann Texte in sowohl bekannten als auch unbekannten Sprachen in Szenenbildern erkennen, ohne dafür neue Trainingsdaten oder Modellanpassungen zu benötigen.
Die Experimente zeigen, dass MENTOR vergleichbare Ergebnisse wie überwachte Methoden für bekannte Sprachen erzielt und bei unbekannten Sprachen deutlich bessere Leistung liefert.
統計資料
Für jede Sprache wurden etwa 1000 Trainingsbilder verwendet.
Das Modell hat insgesamt 102,78 Millionen trainierbare Parameter und eine Verarbeitungsgeschwindigkeit von 3,25 Bildern pro Sekunde.
引述
"Wir fragen nach einem generalisierbaren mehrsprachigen Texterkennungsrahmen, um sowohl bekannte als auch unbekannte Sprachregionen in Szenenbildern zu erkennen, ohne Trainingsdaten für unbekannte Sprachen und Modellneutrainierung zu benötigen."
"Unsere Hauptbeiträge sind zusammengefasst: Wir haben eine neue Problemstellung für die generalisierte mehrsprachige Szenentext-Erkennung vorgeschlagen. Unser mehrsprachiger Detektor MENTOR kann die Zuordnungsbeziehung zwischen externen Informationen (d.h. aus gedruckten Texten extrahiert) und den Merkmalen von Szenentext verallgemeinern, um unbekannte Sprachen zu erkennen."