이 연구는 멀티모달 에고센트릭 비디오 이해에서 누락된 모달리티의 영향을 심층적으로 탐구한다. 실제 응용 프로그램에서는 프라이버시 문제, 효율성 요구 또는 하드웨어 오류로 인해 모달리티가 불완전할 수 있다. 이를 해결하기 위해 저자들은 누락된 모달리티 토큰(MMT)이라는 새로운 개념을 도입했다. MMT는 모달리티가 부재할 때에도 성능을 유지할 수 있는 전략으로, Ego4D, Epic-Kitchens, Epic-Sounds 데이터셋에서 효과적인 것으로 입증되었다. 이 방법은 원래 약 30%의 성능 저하를 약 10%로 완화시켰다. 저자들은 다양한 실험을 통해 MMT의 적응성과 누락된 모달리티 처리 측면에서의 우수성을 입증했다. 이 연구는 포괄적인 분석과 혁신적인 접근법을 제공하여 실제 환경에서 더 강력한 멀티모달 시스템을 개발할 수 있는 길을 열었다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문