핵심 개념
CoMix는 다양한 만화 스타일을 포괄하고 광범위한 작업에 대한 포괄적인 주석을 제공하여 기존 데이터 세트의 한계를 해결하는 새로운 멀티태스크 및 멀티모달 만화 분석 벤치마크입니다.
초록
CoMix: 다양한 만화 이해를 위한 포괄적인 벤치마크
본 논문에서는 다양한 만화 스타일을 포괄하고 객체 감지, 화자 식별, 캐릭터 재식별, 캐릭터 이름 지정, 읽기 순서, 대화 생성과 같은 광범위한 작업에 대한 포괄적인 주석을 제공하는 새로운 멀티태스크 및 멀티모달 만화 분석 벤치마크인 CoMix를 소개합니다.
CoMix 데이터 세트는 Digital Comic Museum의 미국 만화, PopManga의 만화, eBDtheque의 프랑스 Bande Dessinée를 포함한 다양한 출처의 만화를 수집하여 구성되었습니다. 데이터 세트에는 패널, 캐릭터, 얼굴, 텍스트 상자와 같은 객체 감지, 텍스트 상자를 말하는 캐릭터와 연결하는 화자 식별, 동일한 페이지 내에서 캐릭터를 재식별하는 캐릭터 재식별, 캐릭터 이름 지정, 읽기 순서, 대화 생성과 같은 다양한 작업에 대한 주석이 포함되어 있습니다. 벤치마크는 객체 감지, 화자 식별, 캐릭터 재식별, 읽기 순서, 캐릭터 이름 지정 및 대화 생성을 포함한 6가지 계산 작업을 정의합니다. 각 작업에 대해 성능을 평가하기 위한 메트릭과 최첨단 모델을 사용한 기준 결과가 제공됩니다.