Keskeiset käsitteet
본 논문에서는 274년 분량의 미국 신문 이미지 데이터를 기반으로 이미지, 캡션, 시간 정보를 모두 활용하는 새로운 멀티모달 검색 과제인 TRIC를 소개하고, 이를 기반으로 진행된 대회 결과 및 데이터셋 분석 내용을 제시합니다.
Tiivistelmä
시간 제약이 있는 이미지 캡션 검색 대회: 데이터셋 분석 및 결과 분석
본 논문은 274년 분량의 방대한 미국 역사 신문 이미지 데이터베이스를 기반으로, 이미지, 캡션, 시간 정보를 모두 활용하는 새로운 멀티모달 검색 과제인 TRIC (Temporal Image Caption Retrieval)를 소개하고, 이를 기반으로 진행된 대회 결과 및 데이터셋 분석 내용을 다룹니다.
TRIC 과제 소개
- TRIC는 주어진 이미지와 여러 개의 캡션 후보들을 바탕으로, 이미지와 시간 정보를 모두 고려하여 가장 적절한 캡션을 선택하는 과제입니다.
- 이미지는 1853년부터의 신문 스캔본에서 추출되었으며, 이미지 품질이 발행 날짜에 따라 크게 좌우되기 때문에 시간 정보가 검색 과정에 중요한 요소로 작용합니다.
데이터셋 분석
- 데이터셋은 총 3,902개의 인스턴스로 구성되며, 각 인스턴스는 이미지, 캡션, 시간 정보를 포함합니다.
- 훈련 데이터셋(train, train2), 개발 데이터셋(dev-0), 테스트 데이터셋(test-A, test-B)으로 구분되며, 시간대, 캡션 길이 등의 통계적 특징을 제시합니다.
대회 결과 및 분석
- 총 5개 팀이 참가했으며, 그 중 3개 팀이 공식 기준 모델보다 높은 성능을 기록했습니다.
- 최종 우승자는 EVA02_CLIP_E_psz14_plus_s9B 모델을 활용한 Patryk Kaszuba이며, 데이터셋 미세 조정 없이도 높은 성능을 달성했습니다.
결론 및 의의
- 본 논문에서 소개된 TRIC는 시간 정보를 고려한 이미지 캡션 검색이라는 새로운 과제를 제시하며, 멀티모달 모델 연구에 새로운 방향을 제시합니다.
- TRIC는 언어의 시간적 변화 분석과 시대적, 사회적 변화 연구를 지원하는 데에도 활용될 수 있습니다.
Tilastot
본 논문에서 사용된 데이터셋은 1853년부터 274년 분량의 미국 역사 신문 이미지 데이터베이스에서 추출되었습니다.
총 3,902개의 인스턴스로 구성되며, 각 인스턴스는 이미지, 캡션, 시간 정보를 포함합니다.
훈련 데이터셋은 1853년부터 1922년까지의 데이터를 포함하며, 평균 1903.52년, 중앙값 1905.0년으로 구성됩니다.
테스트 데이터셋은 1880년부터 1900년까지의 데이터를 포함하며, 평균 1895.82년, 중앙값 1897.0년으로 구성됩니다.
테스트 데이터셋의 캡션은 평균 11.77단어, 66.79자로 구성되며, 훈련 데이터셋의 캡션은 평균 9.80단어, 56.54자로 구성됩니다.
Lainaukset
"The described competition was conducted using the Gonito platform [4], and its results are available at https://gonito.csi.wmi.amu.edu.pl/challenge/cnlps-ticrc."
"The competition’s winner is Patryk Kaszuba, who was invited to prepare a report for publication in the conference proceedings and presentation at FedCSIS 2023. His solution is based on EVA02_CLIP_E_psz14_plus_s9B model [8]."