본 논문은 기존 이미지 생성 기술의 한계를 극복하고자 감정 유발 이미지 생성이라는 새로운 문제를 제시한다. 이를 위해 저자들은 다음과 같은 접근법을 제안한다:
이미지의 의미, 맥락 및 구조가 감정적 반응을 불러일으킨다는 점에 주목하여, 원본 이미지의 핵심 요소를 유지하면서도 목표 감정을 유발할 수 있는 이미지를 생성하는 것을 목표로 한다.
기존 데이터셋의 한계를 극복하기 위해 EmoPair라는 새로운 데이터셋을 구축하였다. 이 데이터셋은 약 34만 개의 이미지 쌍과 감정 레이블을 포함하고 있다.
제안하는 EmoEditor 모델은 이미지의 전역적 맥락과 지역적 감정 단서를 통합하는 이중 분기 구조를 가지고 있다. 이를 통해 원본 이미지의 의미와 구조를 유지하면서도 목표 감정을 효과적으로 표현할 수 있다.
학습 과정에서 모델의 창의성을 인간의 기대와 일치시키는 손실 함수를 도입하여, 감정 유발을 위한 암묵적 편집 지침을 학습한다.
추론 과정에서는 반복적인 감정 판별 메커니즘을 활용하여 감정적으로 일관된 이미지를 자율적으로 선택한다.
실험 결과, 제안하는 EmoEditor 모델은 기존 방법들에 비해 우수한 성능을 보였으며, 원본 이미지의 의미와 구조를 유지하면서도 목표 감정을 효과적으로 표현할 수 있음을 확인하였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문