본 연구는 기존 데이터셋의 한계를 극복하고자 360도 파노라마, 1인칭 시점, 3인칭 시점 등 다양한 관점과 비디오, 오디오, 위치 정보 등 다양한 데이터 모달리티를 포함하는 360+x 데이터셋을 제안하였다.
데이터셋 구축 과정에서 다음과 같은 특징을 고려하였다:
데이터셋 분석 결과, 기존 데이터셋에 비해 장면당 활동 인스턴스 수가 월등히 많아 더 복잡하고 현실적인 장면 이해 과제를 제공한다. 또한 다양한 관점과 모달리티 간 상호작용을 통해 장면 이해 성능이 향상되는 것을 확인하였다. 특히 자기지도학습 기반 모델이 완전 지도학습 모델보다 우수한 성능을 보였다.
이를 통해 본 데이터셋이 장면 이해 연구에 새로운 방향을 제시할 것으로 기대된다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Hao Chen,Yuq... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00989.pdfDeeper Inquiries