핵심 개념
단일 모달 데이터를 활용하여 로봇이 다중 모달 작업 명세를 이해할 수 있도록 하는 방법을 제안한다.
초록
이 논문은 로봇이 다중 모달 작업 명세를 이해할 수 있도록 하는 Robo-MUTUAL 프레임워크를 제안한다.
- 다중 모달 작업 명세를 이해하기 위해서는 서로 다른 모달리티의 작업 명세가 동일한 고수준 작업 목표를 나타내도록 하는 Cross-modality Alignment 능력이 필요하다.
- 기존 방법들은 이를 위해 정교하게 주석이 달린 다중 모달 작업 명세 데이터가 필요했지만, 이는 현실적으로 어려운 문제였다.
- Robo-MUTUAL은 강력한 Cross-modality Alignment 능력을 가진 사전 학습된 다중 모달 인코더를 활용하여, 단일 모달 데이터만으로도 다중 모달 작업 명세를 이해할 수 있도록 한다.
- 구체적으로, Robo-MUTUAL은 다음과 같은 3단계로 구성된다:
- 광범위한 로봇 관련 데이터를 활용하여 강력한 다중 모달 인코더를 사전 학습한다.
- 학습된 인코더의 모달리티 간 격차를 효과적으로 줄이는 방법을 적용한다.
- 단일 모달 데이터로 학습한 정책을 다중 모달 작업 명세로 평가한다.
- 실험 결과, Robo-MUTUAL은 기존 방법 대비 우수한 성능을 보였으며, 단일 모달 데이터만으로도 다중 모달 작업 명세를 효과적으로 이해할 수 있음을 보여주었다.
통계
다양한 로봇 관련 데이터셋(Open-X, DROID, EPICK-KITCHEN)을 활용하여 사전 학습된 다중 모달 인코더는 기존 인코더 대비 강력한 Cross-modality Alignment 능력을 보였다.
사전 학습된 인코더의 모달리티 간 격차를 줄이기 위해 Centralize 및 Corrupt 기법을 적용한 결과, 서로 다른 모달리티의 작업 명세가 잘 정렬되었다.
인용구
"단일 모달 데이터만으로도 다중 모달 작업 명세를 효과적으로 이해할 수 있음을 보여주었다."
"Robo-MUTUAL은 기존 방법 대비 우수한 성능을 보였다."