Core Concepts
가구 조립 과정을 보여주는 동영상과 단계별 조립 다이어그램을 효과적으로 정렬하는 방법을 제안한다.
Abstract
이 논문은 가구 조립 과정을 보여주는 동영상과 단계별 조립 다이어그램을 정렬하는 문제를 다룬다. 기존의 멀티모달 정렬 방법은 주로 텍스트, 오디오, 비주얼 모달리티를 사용했지만, 이 문제에서는 동영상과 다이어그램이라는 새로운 모달리티를 다룬다.
저자들은 다음과 같은 어려움을 지적한다:
다이어그램은 텍스트나 오디오에 비해 더 추상적이다.
단계별 다이어그램 간 시각적 유사성이 크다.
다이어그램에 표현된 조립 동작을 기계가 이해하기 어렵다.
다이어그램 제작에 일관된 시각적 언어가 없다.
이를 해결하기 위해 저자들은 다음과 같은 접근법을 제안한다:
비디오 클립과 다이어그램 간 대조학습 기반 정렬 모델
동일 매뉴얼 내 다이어그램 간 대조학습을 통한 특징 구분 강화
비디오 클립과 다이어그램의 시간적 정보를 활용한 최적 수송 기반 정렬
실험 결과, 제안 모델이 기존 방법 대비 우수한 성능을 보였다. 또한 저자들은 가구 조립 동영상과 다이어그램을 정렬하는 새로운 데이터셋 IAW를 소개했다.
Stats
이 데이터셋은 420개의 이케아 가구 제품과 183시간 분량의 가구 조립 동영상, 그리고 8,263개의 단계별 조립 다이어그램으로 구성되어 있다.
데이터셋은 훈련, 검증, 테스트 세트로 나뉘어 있으며, 총 30,876개의 동영상 세그먼트와 6,871개의 검증 세그먼트, 11,103개의 테스트 세그먼트로 구성되어 있다.
Quotes
"다이어그램은 텍스트나 오디오에 비해 더 추상적이다."
"단계별 다이어그램 간 시각적 유사성이 크다."
"다이어그램에 표현된 조립 동작을 기계가 이해하기 어렵다."
"다이어그램 제작에 일관된 시각적 언어가 없다."