Core Concepts
제로샷 설정에서 만화 이미지와 대화 텍스트를 활용하여 캐릭터 식별과 화자 예측을 수행하는 새로운 멀티모달 융합 프레임워크를 제안한다.
Abstract
이 논문은 만화 이해를 위한 두 가지 핵심 과제인 캐릭터 식별과 화자 예측을 다룬다. 기존 연구는 각 만화 제목별로 감독된 학습이 필요했지만, 이 논문에서는 제로샷 설정에서 만화 이미지와 대화 텍스트를 활용하여 이 두 과제를 해결하는 새로운 멀티모달 융합 프레임워크를 제안한다.
제안 방법은 다음과 같은 핵심 단계로 구성된다:
초기 화자 예측: 대화 텍스트만을 활용하여 대화체의 화자를 예측한다.
멀티모달 캐릭터 식별: 이전 단계의 화자 예측 결과를 활용하여 캐릭터 이미지의 식별 라벨을 예측한다.
멀티모달 화자 예측: 이전 단계의 캐릭터 식별 결과를 활용하여 대화체의 화자를 다시 예측한다.
관계 점수 갱신: 캐릭터 식별 및 화자 예측 결과를 활용하여 캐릭터-대화 간 관계 점수를 갱신한다.
이러한 반복적 멀티모달 융합 과정을 통해 제로샷 설정에서도 캐릭터 식별과 화자 예측 성능을 향상시킬 수 있다. 실험 결과, 제안 방법은 기존 접근법 대비 유의미한 성능 향상을 보였다.
Stats
대화체 내에 등장인물 이름이 언급되면 해당 대화의 화자로 예측할 가능성이 높다.
캐릭터 이미지와 대화체 간 관계 점수가 높을수록 해당 캐릭터가 대화의 화자일 가능성이 높다.
캐릭터 식별 및 화자 예측 성능은 관계 점수 예측 정확도에 크게 의존한다.
Quotes
"사람이 새로운 만화를 읽을 때 대화체에 등장하는 이름을 통해 화자를 인식하고, 이를 바탕으로 캐릭터의 시각적 외형을 학습한다."
"텍스트 이해와 멀티모달 통합이 이 과제의 핵심 도전과제이다."
"제안 방법은 텍스트 기반 LLM 예측에 이미지 기반 분류기를 융합하는 반복적 프레임워크를 도입하여, 두 모달리티의 상호 보완적 정보를 활용한다."