Core Concepts
이 논문은 12개 주요 인도 언어에 대한 가장 큰 규모의 실제 데이터셋 IndicSTR12를 제안하고, 이를 활용한 장면 텍스트 인식 모델의 성능을 평가한다.
Abstract
이 논문은 인도 언어 장면 텍스트 인식을 위한 포괄적인 데이터셋 IndicSTR12를 제안한다. 이 데이터셋은 12개 주요 인도 언어를 포함하며, 27,000개 이상의 단어 이미지로 구성되어 있다. 기존 데이터셋과 달리 IndicSTR12는 다양한 실제 환경을 반영하여 블러, 조명 변화, 가림, 비아이콘 텍스트, 저해상도, 원근 텍스트 등의 다양한 어려움을 포함한다.
또한 이 논문은 IndicSTR12 데이터셋을 활용하여 PARSeq, CRNN, STARNet 등 3개 모델의 성능을 평가한다. 실험 결과, PARSeq 모델이 대부분의 언어에서 가장 우수한 성능을 보였다. 그러나 저해상도 이미지나 회전/곡선 텍스트 등의 경우 정확도가 낮은 것으로 나타났다.
마지막으로 이 논문은 다국어 학습이 개별 언어 성능 향상에 도움이 될 수 있음을 보였다. 이를 통해 제안된 IndicSTR12 데이터셋과 다국어 학습 접근법이 인도 언어 장면 텍스트 인식 분야의 발전에 기여할 것으로 기대된다.
Stats
저해상도 이미지에서 정확도가 낮음
회전 및 곡선 텍스트에 대한 정확도가 낮음
마트라(모음 기호)에 대한 주의가 부족하여 정확도가 낮음
왜곡된 글꼴과 텍스트로 인해 정확도가 낮음
Quotes
"이 논문은 12개 주요 인도 언어에 대한 가장 큰 규모의 실제 데이터셋 IndicSTR12를 제안한다."
"IndicSTR12 데이터셋은 다양한 실제 환경을 반영하여 블러, 조명 변화, 가림, 비아이콘 텍스트, 저해상도, 원근 텍스트 등의 다양한 어려움을 포함한다."
"다국어 학습이 개별 언어 성능 향상에 도움이 될 수 있음을 보였다."