核心概念
본 연구는 다양한 관점(360도 파노라마, 1인칭 시점, 3인칭 시점)과 데이터 모달리티(비디오, 오디오, 위치 정보 등)를 포함하는 360+x 데이터셋을 제안하여, 실제 세계에 대한 종합적인 이해를 지원하고자 한다.
摘要
본 연구는 기존 데이터셋의 한계를 극복하고자 360도 파노라마, 1인칭 시점, 3인칭 시점 등 다양한 관점과 비디오, 오디오, 위치 정보 등 다양한 데이터 모달리티를 포함하는 360+x 데이터셋을 제안하였다.
데이터셋 구축 과정에서 다음과 같은 특징을 고려하였다:
- 28개의 다양한 실생활 장면 카테고리를 포함하여 포괄적인 장면 커버리지 제공
- 실내외 장면의 균형 있는 분포와 다양한 날씨/조명 조건 반영
- 동시 다발적인 활동이 일어나는 복잡한 장면 포착
데이터셋 분석 결과, 기존 데이터셋에 비해 장면당 활동 인스턴스 수가 월등히 많아 더 복잡하고 현실적인 장면 이해 과제를 제공한다. 또한 다양한 관점과 모달리티 간 상호작용을 통해 장면 이해 성능이 향상되는 것을 확인하였다. 특히 자기지도학습 기반 모델이 완전 지도학습 모델보다 우수한 성능을 보였다.
이를 통해 본 데이터셋이 장면 이해 연구에 새로운 방향을 제시할 것으로 기대된다.
統計資料
장면당 평균 6.2분의 길이로, 기존 데이터셋에 비해 더 긴 지속 시간을 가짐
장면당 평균 3.9개의 활동 인스턴스를 포함하여, 기존 데이터셋보다 더 복잡한 장면 구성
전체 데이터셋에서 '휴대폰 조작' 활동이 17.54%의 비중을 차지하여, 현대 일상생활에서의 모바일 기기 사용 행태를 반영
引述
"본 연구는 다양한 관점과 데이터 모달리티를 포함하는 최초의 종합적인 장면 이해 데이터셋을 제안한다."
"제안된 360+x 데이터셋은 실제 세계에 대한 더 포괄적인 이해를 지원하고, 이 분야의 연구를 더욱 다양한 관점에서 접근하도록 장려할 것으로 기대된다."