핵심 개념
본 연구는 기존 텍스트-이미지 생성 모델의 한계를 극복하고자 훈련 없이 적용 가능한 방법을 제안한다. 구체적으로 레이아웃 생성 시 발생하는 키워드 간 겹침 문제와 이미지 생성 시 발생하는 철자 오류 문제를 해결하기 위해 시뮬레이티드 어닐링과 OCR 기반 반복 인페인팅 기법을 도입하였다.
초록
본 연구는 텍스트-이미지 생성 분야에서 중요한 과제인 시각적 텍스트 생성 문제를 다룬다. 기존 모델들은 철자 오류, 레이아웃 문제 등의 한계를 보이는데, 이를 해결하기 위해 다음과 같은 접근을 취하였다.
LenCom-EVAL 벤치마크 개발: 긴 텍스트와 복잡한 텍스트를 포함하는 이미지 생성 능력을 평가하기 위한 데이터셋 구축
시뮬레이티드 어닐링 기반 레이아웃 개선: 키워드 간 겹침 문제를 완화하기 위해 가중치 기반 에너지 함수를 활용한 시뮬레이티드 어닐링 알고리즘 적용
OCR 기반 반복 인페인팅: OCR을 통해 철자 오류를 식별하고, 이를 보정하기 위해 사전 학습된 인페인팅 모델을 활용하는 반복 기법 도입
제안 방법인 SA-OcrPaint는 기존 모델 대비 LenCom-EVAL과 MARIO-EVAL 벤치마크에서 유의미한 성능 향상을 보였다. 특히 긴 텍스트와 복잡한 텍스트 생성 능력이 크게 개선되었다.
통계
제안 모델 SA-OcrPaint는 TextDiffuser 대비 LenCom-EVAL에서 OCR 단어 F1 점수를 23% 향상시켰다.
SA-OcrPaint는 TextDiffuser 대비 MARIO-EVAL에서 OCR 단어 F1 점수를 13.5% 향상시켰다.
인용구
"본 연구는 기존 모델의 한계를 극복하고자 훈련 없이 적용 가능한 방법을 제안한다."
"제안 방법인 SA-OcrPaint는 기존 모델 대비 LenCom-EVAL과 MARIO-EVAL 벤치마크에서 유의미한 성능 향상을 보였다."