본 연구는 텍스트-이미지 생성 분야에서 중요한 과제인 시각적 텍스트 생성 문제를 다룬다. 기존 모델들은 철자 오류, 레이아웃 문제 등의 한계를 보이는데, 이를 해결하기 위해 다음과 같은 접근을 취하였다.
LenCom-EVAL 벤치마크 개발: 긴 텍스트와 복잡한 텍스트를 포함하는 이미지 생성 능력을 평가하기 위한 데이터셋 구축
시뮬레이티드 어닐링 기반 레이아웃 개선: 키워드 간 겹침 문제를 완화하기 위해 가중치 기반 에너지 함수를 활용한 시뮬레이티드 어닐링 알고리즘 적용
OCR 기반 반복 인페인팅: OCR을 통해 철자 오류를 식별하고, 이를 보정하기 위해 사전 학습된 인페인팅 모델을 활용하는 반복 기법 도입
제안 방법인 SA-OcrPaint는 기존 모델 대비 LenCom-EVAL과 MARIO-EVAL 벤치마크에서 유의미한 성능 향상을 보였다. 특히 긴 텍스트와 복잡한 텍스트 생성 능력이 크게 개선되었다.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Sanyam Lakha... : arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16422.pdfDaha Derin Sorular