Główne pojęcia
IndicSTR12 ist der größte und umfassendste Datensatz für die Erkennung indischer Szenentext, der 12 der wichtigsten indischen Sprachen abdeckt und die Entwicklung robuster Texterkennungsmodelle vorantreiben wird.
Streszczenie
Der Artikel stellt den IndicSTR12-Datensatz vor, den größten und umfassendsten Datensatz für die Erkennung indischer Szenentext. Der Datensatz umfasst über 27.000 Wortbilder in 12 der wichtigsten indischen Sprachen, darunter Assamesisch, Bengalisch, Odia, Marathi, Hindi, Kannada, Urdu, Telugu, Malayalam, Tamil, Gujarati und Punjabi.
Im Gegensatz zu früheren Datensätzen deckt IndicSTR12 ein breiteres Spektrum an realistischen Bedingungen ab, darunter Unschärfe, Beleuchtungsänderungen, Verdeckung, nicht-ikonische Texte, geringe Auflösung, perspektivische Texte usw. Neben dem neuen Datensatz stellen die Autoren auch Baseline-Ergebnisse für drei Modelle bereit: PARSeq (State-of-the-Art für Lateinisch), CRNN und STARNet.
Der Artikel betont, dass indische Sprachen aufgrund ihrer komplexeren Syntax und Semantik im Vergleich zu Lateinisch andere Herausforderungen für die Texterkennung darstellen. Der IndicSTR12-Datensatz soll die Entwicklung robuster Texterkennungsmodelle für indische Sprachen vorantreiben.
Statystyki
Es gibt über 27.000 Wortbilder im IndicSTR12-Datensatz.
Der Datensatz enthält über 1.000 Wortbilder für jede der 12 indischen Sprachen.
Der Datensatz wurde aus verschiedenen natürlichen Szenen wie Wandmalereien, Bahnhöfen, Schildern, Werbebannern usw. gesammelt.
Cytaty
"IndicSTR12 ist der größte und umfassendste Datensatz für die Erkennung indischer Szenentext, der 12 der wichtigsten indischen Sprachen abdeckt und die Entwicklung robuster Texterkennungsmodelle vorantreiben wird."
"Im Gegensatz zu früheren Datensätzen deckt IndicSTR12 ein breiteres Spektrum an realistischen Bedingungen ab, darunter Unschärfe, Beleuchtungsänderungen, Verdeckung, nicht-ikonische Texte, geringe Auflösung, perspektivische Texte usw."