Core Concepts
특정 모달리티의 트랜스포머 성능을 향상시키기 위해 다른 모달리티의 관련 없는 데이터를 활용할 수 있다.
Abstract
이 논문은 특정 모달리티의 트랜스포머 성능을 향상시키기 위해 다른 모달리티의 관련 없는 데이터를 활용하는 방법을 제안한다.
멀티모달 경로 프레임워크를 제안하였다. 이는 특정 모달리티의 트랜스포머와 다른 모달리티의 트랜스포머를 연결하여 모달리티 간 보완적 지식을 활용하는 방법이다.
멀티모달 경로의 구체적인 구현 방법인 Cross-Modal Re-parameterization을 제안하였다. 이는 추가적인 추론 비용 없이 효율적으로 멀티모달 경로를 실현할 수 있다.
이미지, 비디오, 포인트 클라우드, 오디오 인식 작업에서 일관되게 성능 향상을 관찰하였다. 이는 트랜스포머의 모달리티 간 보완적 지식이 존재함을 보여준다.
추가 실험을 통해 이러한 보완적 지식이 계층적 표현 학습 능력과 관련이 있음을 확인하였다.
Stats
이미지넷-1K 데이터셋에서 MAE 기반 사전 학습 모델 대비 최대 3.4% 정확도 향상
COCO 객체 탐지 데이터셋에서 5.7% 박스 AP 향상
ADE20K 의미 분할 데이터셋에서 3.9% mIoU 향상
ShapeNetPart 포인트 클라우드 데이터셋에서 1.6% 인스턴스 mIoU 향상
AudioSet 오디오 인식 데이터셋에서 0.8% 정확도 향상
Quotes
"우리는 특정 모달리티의 트랜스포머 성능을 향상시키기 위해 다른 모달리티의 관련 없는 데이터를 활용하는 방법을 제안한다."
"우리는 멀티모달 경로 프레임워크를 제안하였고, 이를 효율적으로 구현하는 Cross-Modal Re-parameterization 방법을 제안하였다."
"우리의 실험 결과는 트랜스포머의 모달리티 간 보완적 지식이 존재함을 보여준다."