Core Concepts
ViTextVQA는 베트남어 텍스트 이해 능력을 평가하기 위한 대규모 시각적 질문 답변 데이터셋이다.
Abstract
이 논문은 베트남어 텍스트 이해 능력을 평가하기 위한 대규모 시각적 질문 답변 데이터셋인 ViTextVQA를 소개한다.
데이터셋 구축 과정: 다양한 출처에서 이미지를 수집하고, 16명의 베트남 학생들이 6주 동안 50,342개의 질문-답변 쌍을 수작업으로 생성했다.
데이터셋 특징:
16,762개의 이미지와 50,342개의 질문-답변 쌍으로 구성
질문과 답변의 길이, 품사, 개체명 등 다양한 통계 분석 수행
이미지 내 객체 분석을 통해 베트남 문화와 특성 반영
실험 결과:
기존 모델들의 성능 분석을 통해 OCR 텍스트 처리 순서의 중요성 발견
이를 활용해 기준 모델의 성능을 크게 향상시킬 수 있었음
Stats
이미지 내 "person"이 47,000회 이상 출현하여 가장 많은 비중을 차지
"sign"과 "letter"가 각각 43,000회, 36,000회 출현하여 장면 텍스트의 중요성 반영
"motorbike"가 "car"보다 약 3배 더 많이 출현하여 베트남의 문화와 생활 방식을 보여줌
Quotes
"ViTextVQA는 베트남어 텍스트 이해 능력을 평가하기 위한 대규모 시각적 질문 답변 데이터셋이다."
"OCR 텍스트 처리 순서의 중요성을 발견하고, 이를 활용해 기준 모델의 성능을 크게 향상시킬 수 있었다."