Der Artikel stellt den IndicSTR12-Datensatz vor, den größten und umfassendsten Datensatz für die Erkennung indischer Szenentext. Der Datensatz umfasst über 27.000 Wortbilder in 12 der wichtigsten indischen Sprachen, darunter Assamesisch, Bengalisch, Odia, Marathi, Hindi, Kannada, Urdu, Telugu, Malayalam, Tamil, Gujarati und Punjabi.
Im Gegensatz zu früheren Datensätzen deckt IndicSTR12 ein breiteres Spektrum an realistischen Bedingungen ab, darunter Unschärfe, Beleuchtungsänderungen, Verdeckung, nicht-ikonische Texte, geringe Auflösung, perspektivische Texte usw. Neben dem neuen Datensatz stellen die Autoren auch Baseline-Ergebnisse für drei Modelle bereit: PARSeq (State-of-the-Art für Lateinisch), CRNN und STARNet.
Der Artikel betont, dass indische Sprachen aufgrund ihrer komplexeren Syntax und Semantik im Vergleich zu Lateinisch andere Herausforderungen für die Texterkennung darstellen. Der IndicSTR12-Datensatz soll die Entwicklung robuster Texterkennungsmodelle für indische Sprachen vorantreiben.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Harsh Lunia,... pada arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08007.pdfPertanyaan yang Lebih Dalam