Conceptos Básicos
만화 대화 데이터셋 Manga109Dialog를 구축하고, 장면 그래프 생성 모델을 활용한 새로운 만화 화자 탐지 방법을 제안하였다.
Resumen
본 연구에서는 만화 대화 데이터셋 Manga109Dialog를 구축하였다. Manga109Dialog는 세계 최대 규모의 화자-텍스트 연결 데이터셋으로, 132,692개의 대화 쌍을 포함한다.
기존 방식은 텍스트와 가장 가까운 캐릭터를 화자로 예측하는 규칙 기반 접근법이었지만, 이는 복잡한 경우에 정확도가 낮았다. 이를 해결하기 위해 본 연구에서는 장면 그래프 생성 모델을 활용한 새로운 화자 탐지 방법을 제안하였다.
제안 모델은 캐릭터와 텍스트 간의 관계를 고려할 뿐만 아니라, 프레임 정보를 활용하여 성능을 향상시켰다. 실험 결과, 제안 모델은 기존 방식보다 5% 이상 높은 정확도를 달성하며, 복잡한 경우에도 강건한 성능을 보였다. 이를 통해 Manga109Dialog가 만화 화자 탐지 분야의 새로운 벤치마크를 제시하였다.
Estadísticas
만화 109권에서 9,904개의 이미지와 132,692개의 화자-텍스트 쌍을 수집하였다.
이미지당 평균 6.70개의 화자-텍스트 쌍이 포함되어 있다.
Citas
"기존 방식은 텍스트와 가장 가까운 캐릭터를 화자로 예측하지만, 이는 복잡한 경우에 정확도가 낮다."
"제안 모델은 캐릭터와 텍스트 간의 관계를 고려할 뿐만 아니라, 프레임 정보를 활용하여 성능을 향상시켰다."