Core Concepts
본 연구는 다양한 실세계 시나리오에 대해 별도의 학습 없이 빠르게 적응할 수 있는 장면 텍스트 인식 모델 E2STR을 제안한다. E2STR은 문맥 풍부한 장면 텍스트 시퀀스를 활용한 학습 전략을 통해 문맥 학습 능력을 갖추며, 이를 통해 소수의 예시만으로도 다양한 시나리오에 효과적으로 적응할 수 있다.
Abstract
본 연구는 실세계에서 다양한 도메인 변화, 폰트 다양성, 모양 변형 등의 문제에 직면하는 장면 텍스트 인식(STR) 과제에 대한 해결책을 제안한다.
기존 연구에서는 특정 시나리오에 맞춰 모델을 미세 조정하는 방식을 사용했지만, 이는 계산 집약적이며 다양한 시나리오에 대해 여러 모델 사본이 필요하다는 한계가 있었다.
최근 연구에 따르면 대규모 언어 모델(LLM)이 소수의 예시만으로도 "문맥 학습(In-Context Learning, ICL)"을 통해 빠르게 적응할 수 있다. 그러나 LLM을 텍스트 인식기로 사용하는 것은 자원 소모가 크다. 또한 저자의 실험 결과, 기존 방식으로는 STR에서 ICL 능력을 갖추기 어려운 것으로 나타났다. 이는 학습 단계에서 다양한 샘플의 문맥 정보가 충분히 반영되지 않기 때문이다.
이에 저자들은 E2STR을 제안한다. E2STR은 문맥 풍부한 장면 텍스트 시퀀스를 활용한 학습 전략을 통해 ICL 능력을 갖추며, 추론 시 유사한 문맥 샘플을 선택하여 활용한다. 실험 결과, E2STR은 별도의 학습 없이도 다양한 시나리오에 빠르게 적응할 수 있으며, 기존 최신 방법 대비 우수한 성능을 보였다. 특히 새로운 도메인에서도 기존 최신 방법을 능가하는 성과를 달성했다.
Stats
일반 벤치마크에서 E2STR-ICL은 평균 91.33%의 단어 정확도를 달성하여 기존 최신 방법 대비 0.83% 향상되었다.
새로운 도메인(산업, 필기체)에서 E2STR-ICL은 평균 78.17%의 단어 정확도를 달성하여 기존 최신 방법 대비 4.03% 향상되었다.
어려운 사례에 대해 E2STR-ICL은 별도의 학습 없이도 최대 32%의 오류율 감소를 보였다.
Quotes
"본 연구는 다양한 실세계 시나리오에 대해 별도의 학습 없이 빠르게 적응할 수 있는 장면 텍스트 인식 모델 E2STR을 제안한다."
"E2STR은 문맥 풍부한 장면 텍스트 시퀀스를 활용한 학습 전략을 통해 문맥 학습 능력을 갖추며, 이를 통해 소수의 예시만으로도 다양한 시나리오에 효과적으로 적응할 수 있다."