본 연구는 텍스트-이미지 생성 분야에서 중요한 과제인 시각적 텍스트 생성 문제를 다룬다. 기존 모델들은 철자 오류, 레이아웃 문제 등의 한계를 보이는데, 이를 해결하기 위해 다음과 같은 접근을 취하였다.
LenCom-EVAL 벤치마크 개발: 긴 텍스트와 복잡한 텍스트를 포함하는 이미지 생성 능력을 평가하기 위한 데이터셋 구축
시뮬레이티드 어닐링 기반 레이아웃 개선: 키워드 간 겹침 문제를 완화하기 위해 가중치 기반 에너지 함수를 활용한 시뮬레이티드 어닐링 알고리즘 적용
OCR 기반 반복 인페인팅: OCR을 통해 철자 오류를 식별하고, 이를 보정하기 위해 사전 학습된 인페인팅 모델을 활용하는 반복 기법 도입
제안 방법인 SA-OcrPaint는 기존 모델 대비 LenCom-EVAL과 MARIO-EVAL 벤치마크에서 유의미한 성능 향상을 보였다. 특히 긴 텍스트와 복잡한 텍스트 생성 능력이 크게 개선되었다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Sanyam Lakha... lúc arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16422.pdfYêu cầu sâu hơn