이 논문은 신경과학 연구에서 얻은 통찰을 바탕으로 다중 모달 데이터 통합을 위한 새로운 접근법인 정보 이론 기반 계층적 지각 모델(ITHP)을 제안한다. 기존의 다중 모달 융합 모델들은 모든 모달리티를 동일하게 취급하지만, ITHP는 주요 모달리티를 지정하고 나머지 모달리티를 정보 흐름의 필터로 간주한다.
ITHP는 주요 모달리티의 정보를 압축하면서도 다른 모달리티의 관련 정보를 최대한 보존하는 것을 목표로 한다. 이를 위해 정보 병목 원리를 활용하여 계층적 잠재 상태를 구축한다. 첫 번째 잠재 상태 B0는 주요 모달리티 X0의 정보를 압축하면서도 X1의 관련 정보를 최대한 보존한다. 두 번째 잠재 상태 B1은 B0의 정보를 압축하면서도 X2의 관련 정보를 최대한 보존한다.
실험 결과, ITHP 모델은 다양한 다중 모달 데이터셋에서 기존 최신 모델들을 뛰어넘는 성능을 보였다. 특히 CMU-MOSI 데이터셋에서 ITHP-DeBERTa 모델은 인간 수준의 성능을 넘어서는 결과를 달성했다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询