Core Concepts
MENTOR는 기존 데이터 수집 및 모델 재학습 없이도 알려진 언어와 알려지지 않은 언어의 장면 텍스트를 탐지할 수 있는 일반화된 다국어 텍스트 탐지 프레임워크이다.
Abstract
MENTOR는 다국어 장면 텍스트 탐지를 위한 새로운 문제 설정을 제안한다. 기존 방식은 감독 학습에 의존하여 사전 정의된 언어 집합만 탐지할 수 있었지만, MENTOR는 알려지지 않은 언어의 장면 텍스트도 탐지할 수 있다.
MENTOR의 주요 구성 요소는 다음과 같다:
Dynamic Guide (DG): 인쇄된 텍스트 이미지에서 언어별 특성을 추출하여 메타 매핑을 학습한다.
Text Finder (TF): 언어 독립적인 텍스트 탐지와 언어 분류를 수행한다.
Language Mapper (LM): DG에서 추출한 언어별 특성과 TF에서 추출한 장면 텍스트 특성을 비교하여 알려지지 않은 언어의 텍스트 영역을 탐지한다.
MENTOR는 인쇄된 텍스트 이미지를 활용하여 언어별 특성을 학습하고, 이를 바탕으로 알려지지 않은 언어의 장면 텍스트를 탐지할 수 있다. 실험 결과, MENTOR는 감독 학습 기반 방법과 비교하여 우수한 성능을 보였다.
Stats
장면 텍스트 영역을 정확하게 탐지하기 위해 텍스트/비텍스트 분류 손실과 중심점 추정 손실을 사용한다.
언어 분류 손실을 통해 언어별 특성을 학습한다.
동적 컨볼루션 커널과 대조 손실을 사용하여 언어별 텍스트 영역을 구분한다.
Quotes
"우리는 감독 학습 데이터 수집 없이도 알려진 언어와 알려지지 않은 언어의 장면 텍스트를 탐지할 수 있는 일반화된 다국어 텍스트 탐지 프레임워크를 제안한다."
"MENTOR는 제로 샷 학습과 소수 샷 학습 사이의 새로운 학습 전략을 실현한다."