Core Concepts
CLIP4STR는 CLIP의 이미지 및 텍스트 인코더를 활용하여 구축된 간단하지만 효과적인 장면 텍스트 인식 프레임워크이다. 시각 브랜치와 교차 모달 브랜치로 구성되어 있으며, 교차 모달 브랜치가 시각 브랜치의 예측을 정제하여 최종 출력을 생성한다.
Abstract
이 논문은 CLIP4STR, 사전 학습된 비전-언어 모델(VLM)을 활용한 간단하지만 효과적인 장면 텍스트 인식(STR) 프레임워크를 소개한다.
주요 내용은 다음과 같다:
CLIP은 다양한 형태의 불규칙 텍스트(회전, 곡선, 흐릿함, 가림)를 강건하게 인식할 수 있는 능력을 보여준다. 이러한 CLIP의 특성을 활용하여 STR 문제에 적용한다.
CLIP4STR는 CLIP의 이미지 및 텍스트 인코더를 활용하여 구축된 프레임워크이다. 시각 브랜치와 교차 모달 브랜치로 구성되어 있으며, 교차 모달 브랜치가 시각 브랜치의 예측을 정제하여 최종 출력을 생성한다.
다양한 규모의 CLIP4STR 모델을 학습하여 실험한 결과, 11개의 STR 벤치마크에서 최신 기술 수준을 달성하였다. 특히 불규칙 텍스트가 포함된 데이터셋에서 강력한 성능을 보였다.
CLIP4STR의 구성 요소에 대한 상세한 실험적 분석을 제공하여, CLIP을 STR 문제에 효과적으로 적용하는 방법을 제시한다.
전반적으로 CLIP4STR는 VLM을 STR에 적용하는 간단하지만 강력한 기준선을 제시한다.
Stats
불규칙 텍스트가 포함된 IC15 데이터셋에서 CLIP4STR-L의 정확도는 91.4%이다.
심하게 가려진 텍스트가 포함된 HOST 데이터셋에서 CLIP4STR-H의 정확도는 82.6%이다.
약하게 가려진 텍스트가 포함된 WOST 데이터셋에서 CLIP4STR-L의 정확도는 90.6%이다.
Quotes
"CLIP은 회전, 곡선, 흐릿함, 가림 등 다양한 형태의 불규칙 텍스트를 강건하게 인식할 수 있는 능력을 보여준다."
"CLIP4STR는 CLIP의 이미지 및 텍스트 인코더를 활용하여 구축된 간단하지만 효과적인 장면 텍스트 인식 프레임워크이다."
"CLIP4STR는 11개의 STR 벤치마크에서 최신 기술 수준을 달성하였으며, 특히 불규칙 텍스트가 포함된 데이터셋에서 강력한 성능을 보였다."