Core Concepts
합성 및 실제 데이터를 효과적으로 결합하여 텍스트 탐지기의 사전 훈련을 향상시키는 것이 중요하다.
Abstract
기존의 장면 텍스트 탐지 방법은 실제 데이터에 의존한다.
최근 연구들은 대규모 레이블이 지정된 합성 데이터(LSD)를 활용하여 텍스트 탐지기를 사전 훈련하는 데 초점을 맞추고 있다.
본 연구에서는 FreeReal이라는 실제 도메인에 맞춘 사전 훈련 패러다임을 제안한다.
GlyphMix 메커니즘을 활용하여 실제 이미지에 합성 레이블에서 파생된 주석을 자유롭게 부여한다.
FreeReal은 다양한 언어의 URD에 대한 영어 중심 LSD에서 URD로의 언어 간 간격을 줄이는 데 효과적이다.
FreeReal은 DPText, FCENet, PSENet, PANet 및 DBNet 방법의 성능을 획기적으로 개선하며 최근의 사전 훈련 방법을 일관되게 능가한다.
Stats
GlyphMix는 실제 도메인에 대한 신뢰도 점수를 95.7%로 달성한다.
Quotes
"GlyphMix는 실제 도메인과 일치하는 이미지를 생성하는 데 뛰어난 성과를 거두었습니다."
"FreeReal은 DPText, FCENet, PSENet, PANet 및 DBNet 방법의 성능을 획기적으로 개선하며 최근의 사전 훈련 방법을 일관되게 능가합니다."