Die Autoren stellen ein neues Problem für die generalisierbare mehrsprachige Texterkennung in Szenenbildern vor. Herkömmliche Methoden erfordern umfangreiche Trainingsdaten für jede Sprache und müssen bei neuen Sprachen aufwendig nachtrainiert werden.
Um diese Herausforderungen zu adressieren, präsentieren die Autoren "MENTOR", einen neuartigen Ansatz, der eine Lernstrategie zwischen Zero-Shot-Learning und Few-Shot-Learning realisiert. Während der Trainingsphase lernt das Modell eine Meta-Abbildung von gedruckten Texten auf sprachspezifische Kerngewichte. Zusammen mit einem dynamischen Faltungsnetzwerk kann MENTOR dann Texte in sowohl bekannten als auch unbekannten Sprachen in Szenenbildern erkennen, ohne dafür neue Trainingsdaten oder Modellanpassungen zu benötigen.
Die Experimente zeigen, dass MENTOR vergleichbare Ergebnisse wie überwachte Methoden für bekannte Sprachen erzielt und bei unbekannten Sprachen deutlich bessere Leistung liefert.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Hsin-Ju Lin,... alle arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07286.pdfDomande più approfondite