Der Artikel stellt den IndicSTR12-Datensatz vor, den größten und umfassendsten Datensatz für die Erkennung indischer Szenentext. Der Datensatz umfasst über 27.000 Wortbilder in 12 der wichtigsten indischen Sprachen, darunter Assamesisch, Bengalisch, Odia, Marathi, Hindi, Kannada, Urdu, Telugu, Malayalam, Tamil, Gujarati und Punjabi.
Im Gegensatz zu früheren Datensätzen deckt IndicSTR12 ein breiteres Spektrum an realistischen Bedingungen ab, darunter Unschärfe, Beleuchtungsänderungen, Verdeckung, nicht-ikonische Texte, geringe Auflösung, perspektivische Texte usw. Neben dem neuen Datensatz stellen die Autoren auch Baseline-Ergebnisse für drei Modelle bereit: PARSeq (State-of-the-Art für Lateinisch), CRNN und STARNet.
Der Artikel betont, dass indische Sprachen aufgrund ihrer komplexeren Syntax und Semantik im Vergleich zu Lateinisch andere Herausforderungen für die Texterkennung darstellen. Der IndicSTR12-Datensatz soll die Entwicklung robuster Texterkennungsmodelle für indische Sprachen vorantreiben.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania