본 연구는 실세계에서 다양한 도메인 변화, 폰트 다양성, 모양 변형 등의 문제에 직면하는 장면 텍스트 인식(STR) 과제에 대한 해결책을 제안한다.
기존 연구에서는 특정 시나리오에 맞춰 모델을 미세 조정하는 방식을 사용했지만, 이는 계산 집약적이며 다양한 시나리오에 대해 여러 모델 사본이 필요하다는 한계가 있었다.
최근 연구에 따르면 대규모 언어 모델(LLM)이 소수의 예시만으로도 "문맥 학습(In-Context Learning, ICL)"을 통해 빠르게 적응할 수 있다. 그러나 LLM을 텍스트 인식기로 사용하는 것은 자원 소모가 크다. 또한 저자의 실험 결과, 기존 방식으로는 STR에서 ICL 능력을 갖추기 어려운 것으로 나타났다. 이는 학습 단계에서 다양한 샘플의 문맥 정보가 충분히 반영되지 않기 때문이다.
이에 저자들은 E2STR을 제안한다. E2STR은 문맥 풍부한 장면 텍스트 시퀀스를 활용한 학습 전략을 통해 ICL 능력을 갖추며, 추론 시 유사한 문맥 샘플을 선택하여 활용한다. 실험 결과, E2STR은 별도의 학습 없이도 다양한 시나리오에 빠르게 적응할 수 있으며, 기존 최신 방법 대비 우수한 성능을 보였다. 특히 새로운 도메인에서도 기존 최신 방법을 능가하는 성과를 달성했다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Zhen Zhao,Ji... alle arxiv.org 03-29-2024
https://arxiv.org/pdf/2311.13120.pdfDomande più approfondite