본 연구는 기존 데이터셋의 한계를 극복하고자 360도 파노라마, 1인칭 시점, 3인칭 시점 등 다양한 관점과 비디오, 오디오, 위치 정보 등 다양한 데이터 모달리티를 포함하는 360+x 데이터셋을 제안하였다.
데이터셋 구축 과정에서 다음과 같은 특징을 고려하였다:
데이터셋 분석 결과, 기존 데이터셋에 비해 장면당 활동 인스턴스 수가 월등히 많아 더 복잡하고 현실적인 장면 이해 과제를 제공한다. 또한 다양한 관점과 모달리티 간 상호작용을 통해 장면 이해 성능이 향상되는 것을 확인하였다. 특히 자기지도학습 기반 모델이 완전 지도학습 모델보다 우수한 성능을 보였다.
이를 통해 본 데이터셋이 장면 이해 연구에 새로운 방향을 제시할 것으로 기대된다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Hao Chen,Yuq... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00989.pdfYêu cầu sâu hơn