Die Autoren stellen ein neues Problem für die generalisierbare mehrsprachige Texterkennung in Szenenbildern vor. Herkömmliche Methoden erfordern umfangreiche Trainingsdaten für jede Sprache und müssen bei neuen Sprachen aufwendig nachtrainiert werden.
Um diese Herausforderungen zu adressieren, präsentieren die Autoren "MENTOR", einen neuartigen Ansatz, der eine Lernstrategie zwischen Zero-Shot-Learning und Few-Shot-Learning realisiert. Während der Trainingsphase lernt das Modell eine Meta-Abbildung von gedruckten Texten auf sprachspezifische Kerngewichte. Zusammen mit einem dynamischen Faltungsnetzwerk kann MENTOR dann Texte in sowohl bekannten als auch unbekannten Sprachen in Szenenbildern erkennen, ohne dafür neue Trainingsdaten oder Modellanpassungen zu benötigen.
Die Experimente zeigen, dass MENTOR vergleichbare Ergebnisse wie überwachte Methoden für bekannte Sprachen erzielt und bei unbekannten Sprachen deutlich bessere Leistung liefert.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Hsin-Ju Lin,... at arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07286.pdfDeeper Inquiries